2026年5月14日ResearchAgentsBenchmark

Map-then-Act 把前沿模型从 0 拽到 ARC-AGI-3 88%

中科大和美团今天放出 Map-then-Act,把一件大家都看到但没人说的事讲穿了:现在的 agent 是边规划边探索环境,所以才一直翻车。

MAP 拆成三段。先 Global Exploration 建立对环境的通用先验。然后 Task-Specific Mapping 画出一张结构化的认知地图。最后 Knowledge-Augmented Execution,拿着地图再去做任务。一句话总结:理解环境必须发生在动手之前,不能在动手过程中。他们给现在 agent 的失败模式起了个名字——Delayed Environmental Perception,认知滞后。

数字非常硬。ARC-AGI-3 这个基准,前沿模型 baseline 几乎是 0,套上 MAP 之后 25 个游戏环境里 22 个超过 baseline。同时还放出 MAP-2K——一个 map-then-act 轨迹数据集,证明拿这个数据集训练比拿专家执行轨迹训练效果还好。翻译一下就是:理解世界比模仿一个已经懂世界的人更根本。

如果这个结论在 ARC 之外能 generalize,市面上每一个 long-horizon agent 产品都得重做内循环。Cursor agent mode、Claude Code 跑多天任务、OpenAI Operator 浏览网页——目前没有一个是先 map 再 act 的。arXiv 编号 2605.13037。

https://arxiv.org/abs/2605.13037
← 上一篇
Sara Hooker 上线 AutoScientist,让模型自己训练自己
下一篇 →
Stagent 逼着 Claude Code 把任务真的干完
← 返回所有文章

评论

加载中...
>_