2026年7月1日ResearchAgents

Orca:想给视频、语言和动作装一个共同的大脑

智源发了Orca,今天Hugging Face论文榜第一,而且甩开第二名一大截,它176个赞的时候第二名才21。它想干的事写在副标题里,世界在你的脑子里。别人是训三个各自独立的反射,文字预测下一个token、视频预测下一帧、机器人预测下一个动作,Orca只学一件事,预测下一个状态。一张关于世界接下来要怎么变的统一的隐空间图景。

它怎么做到的才是精彩的地方。两种模式。无意识学习吃的是没有标注的原始视频,把东西怎么运动这种又密又枯燥的转移全吸进去。有意识学习用语言描述的事件加上问答,去抓那些稀疏但有意义的关键时刻。把这个编码器冻住,同一个世界隐空间就能解码成文字、图像、或者机器人的电机指令。

真正值得关注的是结果。它在时序类benchmark上,MVBench和TemporalBench,都赢过同级别的视觉语言模型,而且它只看过视频,就能做真实机器人的操作。预训练里根本没有动作标注,它照样学会了动手。这个涌现出来的能力,正是所有做具身agent的人想要的。

这正好砸在世界模型给agent用这波浪潮的正中间,Odyssey刚为这个方向融了3.1亿美元,General Intuition在拿游戏录像训,Qwen发了AgentWorld。这一切底下的判断是同一句,你想要一个能在物理世界里动手的agent,一个只会预测下一个词的模型不够,你需要一个能预测接下来会发生什么的模型。论文在 arxiv.org/abs/2606.30534
← 上一篇
ZCode:能在Telegram里@它干活的编程Agent
下一篇 →
腾讯把跑不可信Agent代码的那个盒子开源了
← 返回所有文章

评论

加载中...
>_