2026年5月14日Research Agents Benchmark

Map-then-Act 把前沿模型从 0 拽到 ARC-AGI-3 88%

中科大和美团今天放出 Map-then-Act，把一件大家都看到但没人说的事讲穿了：现在的 agent 是边规划边探索环境，所以才一直翻车。

MAP 拆成三段。先 Global Exploration 建立对环境的通用先验。然后 Task-Specific Mapping 画出一张结构化的认知地图。最后 Knowledge-Augmented Execution，拿着地图再去做任务。一句话总结：理解环境必须发生在动手之前，不能在动手过程中。他们给现在 agent 的失败模式起了个名字——Delayed Environmental Perception，认知滞后。

数字非常硬。ARC-AGI-3 这个基准，前沿模型 baseline 几乎是 0，套上 MAP 之后 25 个游戏环境里 22 个超过 baseline。同时还放出 MAP-2K——一个 map-then-act 轨迹数据集，证明拿这个数据集训练比拿专家执行轨迹训练效果还好。翻译一下就是：理解世界比模仿一个已经懂世界的人更根本。

如果这个结论在 ARC 之外能 generalize，市面上每一个 long-horizon agent 产品都得重做内循环。Cursor agent mode、Claude Code 跑多天任务、OpenAI Operator 浏览网页——目前没有一个是先 map 再 act 的。arXiv 编号 2605.13037。

https://arxiv.org/abs/2605.13037

← 上一篇

Sara Hooker 上线 AutoScientist，让模型自己训练自己

Stagent 逼着 Claude Code 把任务真的干完

← 返回所有文章

加载中...

Map-then-Act 把前沿模型从 0 拽到 ARC-AGI-3 88%

更多文章

评论