PlanBench-XL:把工具弄坏,agent 就崩了
PlanBench-XL 是今天 HuggingFace 上的第一名论文,它专门去捅每个 agent demo 底下那个假设:agent 伸手去拿工具的时候,工具一定都在。这个基准把 agent 丢进 327 个零售任务里,散落在 1665 个工具中间,它得自己发现需要哪些工具、调用它们去挖出下一步的线索、还得做长链条的规划,而且全程是在工具可见性受限的情况下,跟真实系统里的样子一样。
然后是残忍的部分。PlanBench-XL 有一个可选的阻断模式,让工具消失、报错、或者主动来干扰,模拟生产环境里的一团乱。分数直接崩盘。GPT-5.4 在干净条件下是 51.90%,这本来就不算好,一旦上了最狠的阻断,掉到 11.36%。那个在 demo 里看起来挺好的规划能力,环境一不配合就蒸发了。
这是整个春天一直在悄悄堆高的那个“现实检验”题材:Agents' Last Exam、Where Do Deep-Research Agents Go Wrong、AdaPlanBench。主线一致而且让人不舒服:agent 在干净基准上看着挺能干,一遇到干扰、需要临场调整和恢复就散架。Agent 这活儿难的地方从来不是顺风路径,是任务做到一半某个工具突然 404 的时候。
值得跟同一周落地的 Sakana Fugu 放一起看。一篇论文说调度一遇工具故障就崩,一个产品说调度就是通往前沿的路。两个不可能都完全对。论文是 arXiv 2606.22388,代码在 github.com/JiayuJeff/PlanBench-XL。
← 返回所有文章
然后是残忍的部分。PlanBench-XL 有一个可选的阻断模式,让工具消失、报错、或者主动来干扰,模拟生产环境里的一团乱。分数直接崩盘。GPT-5.4 在干净条件下是 51.90%,这本来就不算好,一旦上了最狠的阻断,掉到 11.36%。那个在 demo 里看起来挺好的规划能力,环境一不配合就蒸发了。
这是整个春天一直在悄悄堆高的那个“现实检验”题材:Agents' Last Exam、Where Do Deep-Research Agents Go Wrong、AdaPlanBench。主线一致而且让人不舒服:agent 在干净基准上看着挺能干,一遇到干扰、需要临场调整和恢复就散架。Agent 这活儿难的地方从来不是顺风路径,是任务做到一半某个工具突然 404 的时候。
值得跟同一周落地的 Sakana Fugu 放一起看。一篇论文说调度一遇工具故障就崩,一个产品说调度就是通往前沿的路。两个不可能都完全对。论文是 arXiv 2606.22388,代码在 github.com/JiayuJeff/PlanBench-XL。
评论