2026年6月23日Research Benchmark Agents

PlanBench-XL：把工具弄坏，agent 就崩了

PlanBench-XL 是今天 HuggingFace 上的第一名论文，它专门去捅每个 agent demo 底下那个假设：agent 伸手去拿工具的时候，工具一定都在。这个基准把 agent 丢进 327 个零售任务里，散落在 1665 个工具中间，它得自己发现需要哪些工具、调用它们去挖出下一步的线索、还得做长链条的规划，而且全程是在工具可见性受限的情况下，跟真实系统里的样子一样。

然后是残忍的部分。PlanBench-XL 有一个可选的阻断模式，让工具消失、报错、或者主动来干扰，模拟生产环境里的一团乱。分数直接崩盘。GPT-5.4 在干净条件下是 51.90%，这本来就不算好，一旦上了最狠的阻断，掉到 11.36%。那个在 demo 里看起来挺好的规划能力，环境一不配合就蒸发了。

这是整个春天一直在悄悄堆高的那个“现实检验”题材：Agents' Last Exam、Where Do Deep-Research Agents Go Wrong、AdaPlanBench。主线一致而且让人不舒服：agent 在干净基准上看着挺能干，一遇到干扰、需要临场调整和恢复就散架。Agent 这活儿难的地方从来不是顺风路径，是任务做到一半某个工具突然 404 的时候。

值得跟同一周落地的 Sakana Fugu 放一起看。一篇论文说调度一遇工具故障就崩，一个产品说调度就是通往前沿的路。两个不可能都完全对。论文是 arXiv 2606.22388，代码在 github.com/JiayuJeff/PlanBench-XL。

← 上一篇

Sakana Fugu：把“调度”本身做成了模型

超级用户日报: 2026年6月24日

← 返回所有文章

加载中...

PlanBench-XL：把工具弄坏，agent 就崩了

相关文章

评论