2026年6月25日AgentsResearchBenchmark

别再拿聊天机器人的尺子量agent记忆

这个季度我们报过一长串agent记忆产品,Supermemory、Walrus、MemPalace、Universal Memory Protocol。上海交大这篇新论文(本周Hugging Face上最火的agent论文,87赞)把它们底下那个共同的道理点破了:agent记忆早就长成了一套完整的数据管理系统,而我们测它的方法全错了。

它的观点很锋利。agent的记忆现在干的全是数据库的活,持久存储、检索、更新、整合、在长任务里管理生命周期。但这个领域还在用给聊天机器人打分的方式评它:端到端任务成功率、F1、BLEU,把整个记忆层当成一个黑盒子。结果就是agent忘了件事或者编造了一段过去,你根本说不清是哪一环坏了。

作者呼吁做一个agent原生的记忆系统,按它真正的身份,一套数据系统,来设计和度量,一个组件一个组件地测。这是个重新框定,不是产品,但框得对。记忆之所以是2026年最热的agent子领域,就因为长周期agent生死全在这;而你测不了的东西,你就工程不了。如果这套分类法被接受,未来一年的记忆论文就不再只报一个糊成一团的数字,而是报记忆到底在哪断的。

链接:https://arxiv.org/abs/2606.24775
← 上一篇
ai-berkshire把Claude Code变成一个投委会
下一篇 →
Heron从网络层盯你的agent,不碰代码
← 返回所有文章

评论

加载中...
>_