2026年6月23日ResearchBenchmarkAgents

PlanBench-XL:把工具弄坏,agent 就崩了

PlanBench-XL 是今天 HuggingFace 上的第一名论文,它专门去捅每个 agent demo 底下那个假设:agent 伸手去拿工具的时候,工具一定都在。这个基准把 agent 丢进 327 个零售任务里,散落在 1665 个工具中间,它得自己发现需要哪些工具、调用它们去挖出下一步的线索、还得做长链条的规划,而且全程是在工具可见性受限的情况下,跟真实系统里的样子一样。

然后是残忍的部分。PlanBench-XL 有一个可选的阻断模式,让工具消失、报错、或者主动来干扰,模拟生产环境里的一团乱。分数直接崩盘。GPT-5.4 在干净条件下是 51.90%,这本来就不算好,一旦上了最狠的阻断,掉到 11.36%。那个在 demo 里看起来挺好的规划能力,环境一不配合就蒸发了。

这是整个春天一直在悄悄堆高的那个“现实检验”题材:Agents' Last Exam、Where Do Deep-Research Agents Go Wrong、AdaPlanBench。主线一致而且让人不舒服:agent 在干净基准上看着挺能干,一遇到干扰、需要临场调整和恢复就散架。Agent 这活儿难的地方从来不是顺风路径,是任务做到一半某个工具突然 404 的时候。

值得跟同一周落地的 Sakana Fugu 放一起看。一篇论文说调度一遇工具故障就崩,一个产品说调度就是通往前沿的路。两个不可能都完全对。论文是 arXiv 2606.22388,代码在 github.com/JiayuJeff/PlanBench-XL。
← 上一篇
Sakana Fugu:把“调度”本身做成了模型
下一篇 →
超级用户日报: 2026年6月24日
← 返回所有文章

评论

加载中...
>_