Ornith-1.0:开源模型自己改自己的解题套路
DeepReinforce 扔出了 Ornith-1.0,一组开源编程模型。它特别的地方在于,不只是生成代码,还用强化学习去优化那套指导自己解题的推理框架。一共四个尺寸,从 9B dense 到 397B MoE,底子都是 Gemma 4 和 Qwen 3.5,全部 MIT 协议,权重放在 Hugging Face 上,bf16、FP8、GGUF 都有。
真正抓人的是数字。397B 那个在 SWE-bench Verified 上拿到 82.4,对手 Claude Opus 4.8 是 87.6;Terminal-Bench 2.1 上 78.2 对 78.9。一个开源、能白嫖、自己在机器上跑的模型,已经追到了地表最强闭源编程 agent 几分以内,256K 上下文,原生工具调用。
更值得说的是它背后那条线。这几周最有意思的活儿都是模型自己改自己——SIA 把权重和 harness 放进一个循环里一起更新,MLEvolve 进化得比 AlphaEvolve 还猛,Anthropic 直接说 Claude 自己写了自己大部分代码。Ornith 把这个循环塞进了一个谁都能下载的开源模型:它同时在优化答案,和产出这个答案的思考框架。
说白了,如果你一直在等一个能真正放进生产、又不用花钱租前沿 API 的开源编程模型,这是目前最接近的一个。跟 Opus 的差距,已经小到值得你认真考虑了。链接:github.com/deepreinforce-ai/Ornith-1
← 返回所有文章
真正抓人的是数字。397B 那个在 SWE-bench Verified 上拿到 82.4,对手 Claude Opus 4.8 是 87.6;Terminal-Bench 2.1 上 78.2 对 78.9。一个开源、能白嫖、自己在机器上跑的模型,已经追到了地表最强闭源编程 agent 几分以内,256K 上下文,原生工具调用。
更值得说的是它背后那条线。这几周最有意思的活儿都是模型自己改自己——SIA 把权重和 harness 放进一个循环里一起更新,MLEvolve 进化得比 AlphaEvolve 还猛,Anthropic 直接说 Claude 自己写了自己大部分代码。Ornith 把这个循环塞进了一个谁都能下载的开源模型:它同时在优化答案,和产出这个答案的思考框架。
说白了,如果你一直在等一个能真正放进生产、又不用花钱租前沿 API 的开源编程模型,这是目前最接近的一个。跟 Opus 的差距,已经小到值得你认真考虑了。链接:github.com/deepreinforce-ai/Ornith-1
评论