2026年6月15日RL Research Agents

APPO：教 agent 分清哪一步真的重要

用强化学习训练一个会用工具的 agent，有个不声不响的瓶颈：信用分配太粗。你在工具调用的边界上给奖励，或者在最终答案上给奖励，可一条长轨迹里，真正左右结果的就那么几个时刻，中间一大堆是填充。全都一样地奖励，信号就被淹了。来自阿里高德 AMAP 团队的 APPO，专门去找那些真正重要的时刻。

说白了，它给每个决策点打一个分，叫 Branching Score，结合两样东西：模型在那个 token 上有多不确定，以及这个选择相比早先的策略改变了多少后面的走向。分高，就是一个真正的岔路口，agent 的路径在那里真的分叉了。你奖励这些，而不是随便哪个不确定的 token。这比把每一步都当成同样值得学，是个利落得多的工具。

数字站得住。在数学推理、知识密集、深度搜索共十三个 benchmark 上稳定涨三到四个点，模型是 Qwen2.5-7B 和 Qwen3-14B。值得注意的是 Pass@K 分析：提升不只体现在 top-1，意味着 agent 拿到了更好的轨迹多样性，而不只是单次猜得更准。论文还配了两个定理，一个关于梯度估计的方差缩减，一个关于策略改进的下界。代码在 github.com/AMAP-ML/APPO。

这是 agent 强化学习这个领域在变得精细。现在人人都在训 agent 用工具，真正的约束是教它该从哪些步骤去学。APPO 加入了一串细粒度信用分配的稳定节拍，正是这套不起眼的机械，决定了一个 agent 是从实践里变强，还是只是变得更吵。如果你相信 agent 应该靠做事进步，这就是让做事真正有回报的那一层。

← 上一篇

美国政府刚把 Claude 最强的模型拔了电

苹果开放自己的模型框架，还把 Claude 放了进来

← 返回所有文章

加载中...

APPO：教 agent 分清哪一步真的重要

相关文章

评论