2026年7月1日Research Agents

Orca：想给视频、语言和动作装一个共同的大脑

智源发了Orca，今天Hugging Face论文榜第一，而且甩开第二名一大截，它176个赞的时候第二名才21。它想干的事写在副标题里，世界在你的脑子里。别人是训三个各自独立的反射，文字预测下一个token、视频预测下一帧、机器人预测下一个动作，Orca只学一件事，预测下一个状态。一张关于世界接下来要怎么变的统一的隐空间图景。

它怎么做到的才是精彩的地方。两种模式。无意识学习吃的是没有标注的原始视频，把东西怎么运动这种又密又枯燥的转移全吸进去。有意识学习用语言描述的事件加上问答，去抓那些稀疏但有意义的关键时刻。把这个编码器冻住，同一个世界隐空间就能解码成文字、图像、或者机器人的电机指令。

真正值得关注的是结果。它在时序类benchmark上，MVBench和TemporalBench，都赢过同级别的视觉语言模型，而且它只看过视频，就能做真实机器人的操作。预训练里根本没有动作标注，它照样学会了动手。这个涌现出来的能力，正是所有做具身agent的人想要的。

这正好砸在世界模型给agent用这波浪潮的正中间，Odyssey刚为这个方向融了3.1亿美元，General Intuition在拿游戏录像训，Qwen发了AgentWorld。这一切底下的判断是同一句，你想要一个能在物理世界里动手的agent，一个只会预测下一个词的模型不够，你需要一个能预测接下来会发生什么的模型。论文在 arxiv.org/abs/2606.30534

← 上一篇

ZCode：能在Telegram里@它干活的编程Agent

腾讯把跑不可信Agent代码的那个盒子开源了

← 返回所有文章

加载中...

Orca：想给视频、语言和动作装一个共同的大脑

相关文章

评论