2026年6月16日Agents Research Framework

Qwen 走出了对话框

周二，阿里 Qwen 团队发布了第一套具身 AI 模型，信号很明确：agent 正在离开屏幕，走进物理世界。Qwen-Robot 系列一共三个模型。Qwen-RobotNav 负责在物理空间里导航。Qwen-RobotWorld 是一个视频世界模型，让机器人在动手之前先预测一个场景会怎么发展。Qwen-RobotManip 则把各种不同机器人采集来的杂乱数据，统一折叠进一个标准空间，让你能跨不同机器人本体大规模训练。

最后这个才是真正的赌注。机器人最难的不是某一项技能，而是每台机器人都不一样，机械臂不一样、传感器不一样、什么都不一样，在一台机器上采的数据几乎没法迁移到另一台。Qwen-RobotManip 想做的，就是那个终于让跨本体训练跑起来的万能翻译器。用中文报道的话说，就是让机器人同时会走、会看、会想。这套东西出自阿里通义实验室，而且已经在部分阿里云企业客户里做试点了，不是一段 demo 视频。

这是中国大厂一整个月在跑的同一套打法，只是这次瞄准了新地方。华为把 agent 放进操作系统，Kimi 和 MiMo 把 agent 放进终端，现在阿里把它放进了一个身体。前沿早就不只是比谁的模型更大了，而是比谁的模型能碰到现实。如果 RobotWorld 的预测质量真的扛得住，视觉语言理解和真正的物理控制之间那道老鸿沟，会一下子窄很多。详情：https://www.scmp.com/tech/big-tech/article/3357260/alibaba-eyes-physical-world-its-first-suite-ai-models-robots

← 上一篇

SpaceX 花 600 亿美元把 Cursor 买了

FastContext：给编程 agent 配个侦察兵

← 返回所有文章

加载中...

Qwen 走出了对话框

相关文章

评论