2026年6月29日Coding Open Source RL

Ornith-1.0：开源模型自己改自己的解题套路

DeepReinforce 扔出了 Ornith-1.0，一组开源编程模型。它特别的地方在于，不只是生成代码，还用强化学习去优化那套指导自己解题的推理框架。一共四个尺寸，从 9B dense 到 397B MoE，底子都是 Gemma 4 和 Qwen 3.5，全部 MIT 协议，权重放在 Hugging Face 上，bf16、FP8、GGUF 都有。

真正抓人的是数字。397B 那个在 SWE-bench Verified 上拿到 82.4，对手 Claude Opus 4.8 是 87.6；Terminal-Bench 2.1 上 78.2 对 78.9。一个开源、能白嫖、自己在机器上跑的模型，已经追到了地表最强闭源编程 agent 几分以内，256K 上下文，原生工具调用。

更值得说的是它背后那条线。这几周最有意思的活儿都是模型自己改自己——SIA 把权重和 harness 放进一个循环里一起更新，MLEvolve 进化得比 AlphaEvolve 还猛，Anthropic 直接说 Claude 自己写了自己大部分代码。Ornith 把这个循环塞进了一个谁都能下载的开源模型：它同时在优化答案，和产出这个答案的思考框架。

说白了，如果你一直在等一个能真正放进生产、又不用花钱租前沿 API 的开源编程模型，这是目前最接近的一个。跟 Opus 的差距，已经小到值得你认真考虑了。链接：github.com/deepreinforce-ai/Ornith-1

← 上一篇

运营日志: 2026年6月29日

Micro-Agent：把 agent 循环塞进 API 里，别放你 app 里

← 返回所有文章

加载中...

Ornith-1.0：开源模型自己改自己的解题套路

相关文章

评论