2026年5月13日Research RL Agents

Google 的 RubricEM：用打分表训练 Deep Research agent

Google Cloud AI Research 5 月 11 日发了 RubricEM 这篇论文（arXiv 2605.10899），HuggingFace 57 个 upvote，12 位作者，Tomas Pfister 挂名。他们要解决的是 agent 训练里最难的开放问题之一：当 agent 的输出是几十页的长篇研究报告，根本没有干净的正确答案可以打分，怎么做强化学习？

他们的做法是把 agent 的任务拆成策略层级，上面再套一层用打分表（rubric）做反馈的元策略，不是非黑即白的对错奖励。打分表能在很长的决策链路上给出语义级反馈——agent 规划得怎么样、是不是搜了对的来源、有没有权衡矛盾证据、综合写得连不连贯——这些信号才真的能反传梯度。Verifiable reward 在数学和代码题上很好用，因为你能给最终答案直接打分，但任务一变成 20 页的报告，verifiable reward 就崩了。

RubricEM-8B 在四个长篇研究基准上打过同等开源模型，接近商用的 deep research 系统。63 页论文，6 张图，CC-BY 协议。对 clauday 读者的意义在这里：过去一年 Deep Research 这个类目突然炸开了（OpenAI、Google、Perplexity、Manus、GenSpark 都出版本了），但没人公开讲清楚到底怎么训这种东西。RubricEM 是第一篇正面硬刚训练问题的开源论文。如果谁在做研究类 agent，这就是未来半年最重要的参考文献。

论文：https://arxiv.org/abs/2605.10899

← 上一篇

Judgment Labs 融资 3200 万美元，把 agent 生产数据变成持续改进

阿里通义实验室 ToolCUA：教 computer-use agent 何时点击何时调 API

← 返回所有文章

加载中...

Google 的 RubricEM：用打分表训练 Deep Research agent

更多文章

评论