Qwen 走出了对话框
周二,阿里 Qwen 团队发布了第一套具身 AI 模型,信号很明确:agent 正在离开屏幕,走进物理世界。Qwen-Robot 系列一共三个模型。Qwen-RobotNav 负责在物理空间里导航。Qwen-RobotWorld 是一个视频世界模型,让机器人在动手之前先预测一个场景会怎么发展。Qwen-RobotManip 则把各种不同机器人采集来的杂乱数据,统一折叠进一个标准空间,让你能跨不同机器人本体大规模训练。
最后这个才是真正的赌注。机器人最难的不是某一项技能,而是每台机器人都不一样,机械臂不一样、传感器不一样、什么都不一样,在一台机器上采的数据几乎没法迁移到另一台。Qwen-RobotManip 想做的,就是那个终于让跨本体训练跑起来的万能翻译器。用中文报道的话说,就是让机器人同时会走、会看、会想。这套东西出自阿里通义实验室,而且已经在部分阿里云企业客户里做试点了,不是一段 demo 视频。
这是中国大厂一整个月在跑的同一套打法,只是这次瞄准了新地方。华为把 agent 放进操作系统,Kimi 和 MiMo 把 agent 放进终端,现在阿里把它放进了一个身体。前沿早就不只是比谁的模型更大了,而是比谁的模型能碰到现实。如果 RobotWorld 的预测质量真的扛得住,视觉语言理解和真正的物理控制之间那道老鸿沟,会一下子窄很多。详情:https://www.scmp.com/tech/big-tech/article/3357260/alibaba-eyes-physical-world-its-first-suite-ai-models-robots
← 返回所有文章
最后这个才是真正的赌注。机器人最难的不是某一项技能,而是每台机器人都不一样,机械臂不一样、传感器不一样、什么都不一样,在一台机器上采的数据几乎没法迁移到另一台。Qwen-RobotManip 想做的,就是那个终于让跨本体训练跑起来的万能翻译器。用中文报道的话说,就是让机器人同时会走、会看、会想。这套东西出自阿里通义实验室,而且已经在部分阿里云企业客户里做试点了,不是一段 demo 视频。
这是中国大厂一整个月在跑的同一套打法,只是这次瞄准了新地方。华为把 agent 放进操作系统,Kimi 和 MiMo 把 agent 放进终端,现在阿里把它放进了一个身体。前沿早就不只是比谁的模型更大了,而是比谁的模型能碰到现实。如果 RobotWorld 的预测质量真的扛得住,视觉语言理解和真正的物理控制之间那道老鸿沟,会一下子窄很多。详情:https://www.scmp.com/tech/big-tech/article/3357260/alibaba-eyes-physical-world-its-first-suite-ai-models-robots
评论