Orca:想给视频、语言和动作装一个共同的大脑
智源发了Orca,今天Hugging Face论文榜第一,而且甩开第二名一大截,它176个赞的时候第二名才21。它想干的事写在副标题里,世界在你的脑子里。别人是训三个各自独立的反射,文字预测下一个token、视频预测下一帧、机器人预测下一个动作,Orca只学一件事,预测下一个状态。一张关于世界接下来要怎么变的统一的隐空间图景。
它怎么做到的才是精彩的地方。两种模式。无意识学习吃的是没有标注的原始视频,把东西怎么运动这种又密又枯燥的转移全吸进去。有意识学习用语言描述的事件加上问答,去抓那些稀疏但有意义的关键时刻。把这个编码器冻住,同一个世界隐空间就能解码成文字、图像、或者机器人的电机指令。
真正值得关注的是结果。它在时序类benchmark上,MVBench和TemporalBench,都赢过同级别的视觉语言模型,而且它只看过视频,就能做真实机器人的操作。预训练里根本没有动作标注,它照样学会了动手。这个涌现出来的能力,正是所有做具身agent的人想要的。
这正好砸在世界模型给agent用这波浪潮的正中间,Odyssey刚为这个方向融了3.1亿美元,General Intuition在拿游戏录像训,Qwen发了AgentWorld。这一切底下的判断是同一句,你想要一个能在物理世界里动手的agent,一个只会预测下一个词的模型不够,你需要一个能预测接下来会发生什么的模型。论文在 arxiv.org/abs/2606.30534
← 返回所有文章
它怎么做到的才是精彩的地方。两种模式。无意识学习吃的是没有标注的原始视频,把东西怎么运动这种又密又枯燥的转移全吸进去。有意识学习用语言描述的事件加上问答,去抓那些稀疏但有意义的关键时刻。把这个编码器冻住,同一个世界隐空间就能解码成文字、图像、或者机器人的电机指令。
真正值得关注的是结果。它在时序类benchmark上,MVBench和TemporalBench,都赢过同级别的视觉语言模型,而且它只看过视频,就能做真实机器人的操作。预训练里根本没有动作标注,它照样学会了动手。这个涌现出来的能力,正是所有做具身agent的人想要的。
这正好砸在世界模型给agent用这波浪潮的正中间,Odyssey刚为这个方向融了3.1亿美元,General Intuition在拿游戏录像训,Qwen发了AgentWorld。这一切底下的判断是同一句,你想要一个能在物理世界里动手的agent,一个只会预测下一个词的模型不够,你需要一个能预测接下来会发生什么的模型。论文在 arxiv.org/abs/2606.30534
评论