2026年6月15日RLResearchAgents

APPO:教 agent 分清哪一步真的重要

用强化学习训练一个会用工具的 agent,有个不声不响的瓶颈:信用分配太粗。你在工具调用的边界上给奖励,或者在最终答案上给奖励,可一条长轨迹里,真正左右结果的就那么几个时刻,中间一大堆是填充。全都一样地奖励,信号就被淹了。来自阿里高德 AMAP 团队的 APPO,专门去找那些真正重要的时刻。

说白了,它给每个决策点打一个分,叫 Branching Score,结合两样东西:模型在那个 token 上有多不确定,以及这个选择相比早先的策略改变了多少后面的走向。分高,就是一个真正的岔路口,agent 的路径在那里真的分叉了。你奖励这些,而不是随便哪个不确定的 token。这比把每一步都当成同样值得学,是个利落得多的工具。

数字站得住。在数学推理、知识密集、深度搜索共十三个 benchmark 上稳定涨三到四个点,模型是 Qwen2.5-7B 和 Qwen3-14B。值得注意的是 Pass@K 分析:提升不只体现在 top-1,意味着 agent 拿到了更好的轨迹多样性,而不只是单次猜得更准。论文还配了两个定理,一个关于梯度估计的方差缩减,一个关于策略改进的下界。代码在 github.com/AMAP-ML/APPO。

这是 agent 强化学习这个领域在变得精细。现在人人都在训 agent 用工具,真正的约束是教它该从哪些步骤去学。APPO 加入了一串细粒度信用分配的稳定节拍,正是这套不起眼的机械,决定了一个 agent 是从实践里变强,还是只是变得更吵。如果你相信 agent 应该靠做事进步,这就是让做事真正有回报的那一层。
← 上一篇
美国政府刚把 Claude 最强的模型拔了电
下一篇 →
苹果开放自己的模型框架,还把 Claude 放了进来
← 返回所有文章

评论

加载中...
>_