2026年6月24日Research RL Agents

Qwen-AgentWorld：让 agent 在梦里练级

Qwen 出了个很干净的想法。在真实世界里训练 agent 又慢又脆又贵，你得有真的环境、真的网站、真的会崩的 app。那干脆反过来，造一个模型去模拟环境，让 agent 在模拟里练。说白了就是一个梦境世界，你能凭空起一千个假但逼真的环境，便宜地跑强化学习。

他们把这个叫语言世界模型，一口气放了两个：一个 35B-A3B，一个大号 397B-A17B。用一千多万条交互轨迹、横跨七个领域训练，三段式流程：先注入通用能力，再教它预测环境的下一个状态，最后用 RL 打磨模拟的逼真度。两种用法：当独立模拟器，批量生成便宜的训练环境；或者当基础模型，世界模型训练本身就是个热身，让下游 agent 直接变强。

值得拎出来说的结果：在他们自己的 AgentWorldBench 上，世界模型热身打赢了只在真实环境里训练。这句话读两遍。在梦里练出来的 agent，比在现实里练的更强，因为梦能给你现实给不了的量和可控性。

这其实是机器人和游戏 AI 里早就在悄悄用的招，现在被对准了通用 agent，代码开源在 https://github.com/QwenLM/Qwen-AgentWorld 。如果模拟环境跟真实环境的差距继续缩小，agent 训练的瓶颈就不再是收集数据，而是你的梦做得有多好。

← 上一篇

Gemini 3.5 Flash 现在会用你的电脑了

DESIGN.md：把审美写进一个文件喂给 agent

← 返回所有文章

加载中...

Qwen-AgentWorld：让 agent 在梦里练级

相关文章

评论