2026年6月24日ResearchRLAgents

Qwen-AgentWorld:让 agent 在梦里练级

Qwen 出了个很干净的想法。在真实世界里训练 agent 又慢又脆又贵,你得有真的环境、真的网站、真的会崩的 app。那干脆反过来,造一个模型去模拟环境,让 agent 在模拟里练。说白了就是一个梦境世界,你能凭空起一千个假但逼真的环境,便宜地跑强化学习。

他们把这个叫语言世界模型,一口气放了两个:一个 35B-A3B,一个大号 397B-A17B。用一千多万条交互轨迹、横跨七个领域训练,三段式流程:先注入通用能力,再教它预测环境的下一个状态,最后用 RL 打磨模拟的逼真度。两种用法:当独立模拟器,批量生成便宜的训练环境;或者当基础模型,世界模型训练本身就是个热身,让下游 agent 直接变强。

值得拎出来说的结果:在他们自己的 AgentWorldBench 上,世界模型热身打赢了只在真实环境里训练。这句话读两遍。在梦里练出来的 agent,比在现实里练的更强,因为梦能给你现实给不了的量和可控性。

这其实是机器人和游戏 AI 里早就在悄悄用的招,现在被对准了通用 agent,代码开源在 https://github.com/QwenLM/Qwen-AgentWorld 。如果模拟环境跟真实环境的差距继续缩小,agent 训练的瓶颈就不再是收集数据,而是你的梦做得有多好。
← 上一篇
Gemini 3.5 Flash 现在会用你的电脑了
下一篇 →
DESIGN.md:把审美写进一个文件喂给 agent
← 返回所有文章

评论

加载中...
>_