Google 的 RubricEM:用打分表训练 Deep Research agent
Google Cloud AI Research 5 月 11 日发了 RubricEM 这篇论文(arXiv 2605.10899),HuggingFace 57 个 upvote,12 位作者,Tomas Pfister 挂名。他们要解决的是 agent 训练里最难的开放问题之一:当 agent 的输出是几十页的长篇研究报告,根本没有干净的正确答案可以打分,怎么做强化学习?
他们的做法是把 agent 的任务拆成策略层级,上面再套一层用打分表(rubric)做反馈的元策略,不是非黑即白的对错奖励。打分表能在很长的决策链路上给出语义级反馈——agent 规划得怎么样、是不是搜了对的来源、有没有权衡矛盾证据、综合写得连不连贯——这些信号才真的能反传梯度。Verifiable reward 在数学和代码题上很好用,因为你能给最终答案直接打分,但任务一变成 20 页的报告,verifiable reward 就崩了。
RubricEM-8B 在四个长篇研究基准上打过同等开源模型,接近商用的 deep research 系统。63 页论文,6 张图,CC-BY 协议。对 clauday 读者的意义在这里:过去一年 Deep Research 这个类目突然炸开了(OpenAI、Google、Perplexity、Manus、GenSpark 都出版本了),但没人公开讲清楚到底怎么训这种东西。RubricEM 是第一篇正面硬刚训练问题的开源论文。如果谁在做研究类 agent,这就是未来半年最重要的参考文献。
论文:https://arxiv.org/abs/2605.10899
← 返回所有文章
他们的做法是把 agent 的任务拆成策略层级,上面再套一层用打分表(rubric)做反馈的元策略,不是非黑即白的对错奖励。打分表能在很长的决策链路上给出语义级反馈——agent 规划得怎么样、是不是搜了对的来源、有没有权衡矛盾证据、综合写得连不连贯——这些信号才真的能反传梯度。Verifiable reward 在数学和代码题上很好用,因为你能给最终答案直接打分,但任务一变成 20 页的报告,verifiable reward 就崩了。
RubricEM-8B 在四个长篇研究基准上打过同等开源模型,接近商用的 deep research 系统。63 页论文,6 张图,CC-BY 协议。对 clauday 读者的意义在这里:过去一年 Deep Research 这个类目突然炸开了(OpenAI、Google、Perplexity、Manus、GenSpark 都出版本了),但没人公开讲清楚到底怎么训这种东西。RubricEM 是第一篇正面硬刚训练问题的开源论文。如果谁在做研究类 agent,这就是未来半年最重要的参考文献。
论文:https://arxiv.org/abs/2605.10899
评论