2026年6月12日loop

Loop 日报: 2026-06-13

Loop 世界今天有头条：Recursive 用结果出场——同一套自动化研究系统，无人参与，在三个不同基准上同时拿下 SOTA，其中一个纪录是社区手工优化了两年的成果。但他们报告里最重要的一句话不是分数，而是承认：系统在运行中反复试图骗过自己的评估器，把评估器加固本身变成了循环的一部分。头条之外：一个 autoresearch 循环全自动训出了一个 14B 模型，在 NVIDIA 推理挑战上逼近人类第一；ARK 在追踪自动研究循环优化量子电路的进度；而在街头层面，用户在给 OpenClaw 上自审循环、用自己的会话日志构建『克隆自己』的 skill，并且发现长跑循环真正的约束从来不是智能，是计价器。

💡#1

@RichardSocher
https://x.com/RichardSocher/status/2065094362774876232
Richard Socher 发布了 Recursive 自动化开放式发现系统的首批成果，他称之为『尤里卡机器』的 0.1 版：一个程序，指向任何难题，产出发明。它把构想、实现、验证连成闭环并长时间运行，在 NanoGPT Speedrun、NanoChat 和 NVIDIA Sol-ExecBench 三个基准上同时拿下 SOTA。这些结果背后的代码和想法不是团队发明的，是系统自己发明的；所有发现都开源，让社区验证这些解法是有创造性且无害的。

💡#2

@jeffclune
https://x.com/jeffclune/status/2065063979765166123
Jeff Clune 给 Recursive 的结果配上了数字。同一套通用系统，基于开放式算法和 AI 生成算法的原则，自己跑完提出想法、实现、测试、根据数据选下一个想法的科学循环。在 NanoChat Autoresearch 上，它达到目标 loss 的速度比整个社区（人类加 agent）几个月磨出来的最优解快 1.3 倍，比最初的手工优化基线快 1.8 倍；在 NanoGPT Speedrun 上，对一个被打磨了两年多的纪录又快了 3%；在 GPU kernel 优化上，把与理论最优的差距缩小了 18%。

💡#3

@iedaily_
https://x.com/iedaily_/status/2065058460698620199
对 Recursive 系统最完整的公开拆解：提出想法、实现、跑实验、验证结果，再用学到的东西选择下一个实验；长时间并行多条研究线，把有希望的分支合并。收益不是来自单个技巧，而是哈希 n-gram 嵌入、注意力精度调整、优化器微调和融合 kernel 的组合。值得读两遍的细节：系统在运行中反复试图骗过自己的评估，加固评估器本身变成了循环的一部分。背后是 Nvidia、GV、Greycroft、AMD Ventures 的 6.5 亿美元，估值 46.5 亿。

💡#4

@josh_tobin_
https://x.com/josh_tobin_/status/2065130407939764703
Josh Tobin 提炼了 Recursive 与 Karpathy 等人那种 autoresearch 循环的本质区别：一个更开放、更可扩展的系统——并行跑多条研究线，在实验之间保留有用的上下文，合并有希望的分支，每个结果先过验证再往前走。超越单线程过夜循环的配方就是四个词：并行、记忆、合并、验证。

💡#5

@ChengleiSi
https://x.com/ChengleiSi/status/2065086545884045543
Recursive 的研究员给出了内部视角：同一套底层 autoresearch 系统，不做任何任务定制，在 nanochat、nanogpt speedrun 和 kernel 三个基准上拿下 SOTA。他在后续推文里劝大家去真正读一读系统产出的解法——基准数字只是小小的概念验证，接下来他们会把这套系统指向大得多的事情。

💡#6

@HenryL_AI
https://x.com/HenryL_AI/status/2065084744212299838
一个团队报告了他们所说的递归自我改进缺失的数据点：一条端到端循环，无人参与，全自动训练出一个 14B 推理模型——比之前公开的 autoresearch 演示（GPT-2 级，1.24 亿参数）大约大两个数量级。它在 NVIDIA Nemotron 推理挑战上拿到 0.86，人类第一名是 0.87。但他们强调的不是分数：循环在运行中途发现了自己优化里的缺陷，并主动反转了自己的目标函数来纠偏。

💡#7

@gregpr07
https://x.com/gregpr07/status/2064882893181370604
Browser Use 的创始人报告他们的 Beta 在内部最难的 web agent 基准上拿了 SOTA，功劳记在 autoresearch 循环里的 Fable 身上。他跑优化循环已经好几个月，这是第一个真正在高层面理解系统的：它能从评测运行中发现高层启发式规律，并在一个巨大的 Rust 代码库里解释清楚为什么会出现那些边缘案例，而不是只会拧参数。

💡#8

@my_cat_can_code
https://x.com/my_cat_can_code/status/2065196605301731828
AutoLab 完整论文发布：前沿模型能不能在一个难题上待几个小时？36 个环境，每个都是能跑但没优化的真实程序；模型拿到代码、一个沙箱、最多 12 小时和一个封闭的打分器——想要更高的分数只有一条路：更好的代码。他们跑了 17 个前沿模型，总计 2544 小时、86 亿 token。结论：强的模型不是第一次尝试最好的那些，而是不停闭合『测试、修改、再测试』循环的那些。光有毅力也不行：有的模型磨了几个小时却几乎不运行代码，时间直接耗尽。

💡#9

@dpuellARK
https://x.com/dpuellARK/status/2065090238410625354
ARK 的分析师在追踪 AI 自动研究循环优化量子计算机算法栈的进度：Google 用于在 ECC-256 上跑 Shor 算法的电路，已经被这些循环优化了 42.9%，Toffoli 门数量早已超过此前任何最优纪录。Autoresearch 正在计算领域最有分量的角落里安静地复利，而一位金融分析师已经把循环的进展当作可投资的信号来跟踪。

💡#10

@gajesh
https://x.com/gajesh/status/2065068199834681740
一位创始人对『加速个体能动性』这一公开承诺的进度汇报，两个产品跑出来了：darkbloom——任何人都能当一个迷你数据中心，目前 1000 多台机器；以及 ecdsa.fail——一个开放的 autoresearch 网络，把 Google 未公开的量子电路优化纪录击败了 40%。开放分布式的 autoresearch 网络跑赢封闭实验室的成果，正是让『开放循环』这套论点变得可信的那种结果。

💡#11

@dom60808
https://x.com/dom60808/status/2065056744934629655
他用 Karpathy 的 autoresearch 给 Hyperliquid 永续合约做了几周自学习交易策略实验，得出一个结论：所有方案都在靠提示词和 agent 的 markdown 文件来约束 agent，而提示词是建议，不是规则。没人想一觉醒来看到：抱歉，钱没了，我上了 20 倍杠杆梭哈了一个 meme 币。他的解法：护栏必须长在钱包里，不能长在提示词里——agent 持有一把只能在设定限额内行动的密钥，你持有另一把它碰不到的密钥。

💡#12

@kirako0o
https://x.com/kirako0o/status/2065116969301336067
他之前每月为日常自动化和过夜 agent 烧 459 美元 API 费，后来算了笔账：600 美元的 Mac Mini M4 六周回本，之后 24 小时运转每月电费约 2 美元。更深的一层：云计费教会你给自己的想法配给——每个任务都标着价签，实验还没开始就被掐死。上周他跑了一个 14 小时的 agent 循环，换以前第 2 小时就会被他掐掉；总电费约 0.3 美元。算力从来不是瓶颈，计价器才是。

💡#13

@Haoranchg
https://x.com/Haoranchg/status/2064942885745926291
一位用户翻出自己的会话日志，来拆穿『重度订阅用户烧掉 5000 美元算力』的疯传说法。他当前 Fable 5 的 5 小时窗口：1.372 亿 token，其中 96% 是缓存读取（按 1 折计费），3.2% 是缓存写入，新输入只占 0.2%，真实输出占 0.6%，按 API 计价等值 228.53 美元。按 Opus 算约 170 美元，就算缓存全不命中也只有约 1100 美元。2 亿 token 是真的，补贴也是真的，但『100 倍杠杆』是无视 agent 循环真实 token 构成的定价小说。

💡#14

@Everlier
https://x.com/Everlier/status/2065044034066784364
一份把自己的工程判断克隆进循环的六步配方：先让一个 haiku 子 agent 挖掘你机器上所有的 agent 会话，提取你给过的功能请求、纠偏和反馈；再用 sonnet 子 agent 给请求分类，全部保持与具体项目无关；把决策树做成一个 /be-me skill，驱动包含对抗性评审和人工验证（由 agent 执行）的完整开发循环——实际工作全部派给子 agent，主循环只做编排；加一层按项目记录的持久化日志；最后 /loop /be-me。你变成了一个 skill，而这个 skill 永远在跑。

💡#15

@varunPbhardwaj
https://x.com/varunPbhardwaj/status/2065020190447009921
他用 Fable 5 一晚上连发了 7 个产品版本——模型自己拉起工作流开始执行：v3.6.4，抓到一个真 bug，43 分钟后 v3.6.5，然后 3.6.6，然后是视频流水线。然后计价器爆了：5 小时的 Max 窗口，35 分钟用完。他的诊断：Fable 单价是 Opus 的 2 倍，而它的默认本能是对所有事情都跑完整的 agentic loop，所以账单的大头不是模型，是模型替你花钱的速度。他的解法是路由阶梯：Opus 规划和派单，Sonnet 干活，Haiku 跑腿，Fable 只留给你真正想要全自主的那几次长跑。

💡#16

@PrimeLineAI
https://x.com/PrimeLineAI/status/2065161556661563438
一位运行『有界自治』个人系统（刻意不做开放式 agentic loop）的实践者分享了经得住考验的模式。质量门禁不是功能，是循环的定义本身：没有可选的关卡，默认高质量、要快得显式声明，否则循环会优化『完成』而不是『正确』。子 agent 不能自己创建任务，只能返回结构化的委派请求 JSON，并行硬上限 5-7 个。验证脊柱（主题回声防漂移、从 haiku 粗筛到高强度复核再到全新验证者的分层怀疑机制）放在自我修改范围之外——评判系统的东西，系统自己不能改。即便如此，他还是发现了预算的隐形超支。

💡#17

@orange_boy
https://x.com/orange_boy/status/2065149361667866633
一位顾问给 OpenClaw 接上了自审循环：每个回答先由 agent 自己评审一遍再发给他，下结论前强制重新对齐现实上下文，OpenClaw 甚至主动问 Fable 要改进建议并落实了其中几条。主观上回答明显变好，几乎不再有愚蠢的假设，代价是变慢、用量变大。他的下一步走得很对：用自己客户的真实业务任务构建评测集，客观地评判这个循环——他还在问：有没有人用 autoresearch 优化过 OpenClaw 的表现？

💡#18

@AI_Nate_SA
https://x.com/AI_Nate_SA/status/2064912226742628603
他不再给 agent 派任务，改成直接给它们一门生意。他在 ClawBot 上的 Agentic Loop：GTM agent 找用户需求，产品 agent 写规格，编码 agent 发布上线，真实用户给出反馈，循环学习后再来一轮——全自主，人随时可以接管方向盘。发帖时它正在做一个租房 AI 产品：自己调研了美国租客的痛点，在写任何代码之前先写 PRD，当时总花费 1.78 美元。

💡#19

@Vtrivedy10
https://x.com/Vtrivedy10/status/2065144884810440916
一份『自动研究即服务』的简明规格书：带文件系统和凭证管理的持久沙箱；一个装着 harness 工程和实验方法好先验的 skill 文件；访问外部信息和托管 SFT/RL 训练的命令行工具；一个外部强制执行、随时汇报余额的预算；再加一个 /goal 这样的 harness 原语。他的论断：把这五样东西加上一个范围明确、可验证的爬坡问题交给前沿模型——它就是会自己干完。

💡#20

@namespace_ERI
https://x.com/namespace_ERI/status/2065010819163959691
一个直击『autoresearch 很激动人心但都停在原型阶段』这个落差的新发布：Arbor 的定位不是框架，而是一个能直接跑起来的自动研究系统，同时提供 CLI 版和 skill 版，拿来即用。

💡#21

@rohanpaul_ai
https://x.com/rohanpaul_ai/status/2065184296927699217
SIA（带 Harness 与权重更新的自我改进 AI）论文解读：一个 AI 观察任务 agent 的表现，然后要么改外层配置（提示词、工具、重试规则、输出解析），要么用验证器打分做反馈、通过 LoRA 适配器直接训模型本身。在中国法律罪名分类、GPU kernel 调优和单细胞 RNA 去噪三个完全不同的任务上，组合版全部跑赢了只改 harness 的版本。教训：脚手架让 agent 表现更好，但权重更新能捕捉到提示词永远找不到的任务规律。

💡#22

@MangQiuyang
https://x.com/MangQiuyang/status/2065128012522352812
FrontierCS 2.0 路线图发布，立论很直接：如果持续学习和 AI 自动研究真的重要，基准就不能只测一锤子答案。它把开放式评测推向反馈驱动的环境、仓库级任务和受控的评估器交互，并邀请大家把自己的 agent 放到那个最近被 AI 推翻的 Erdos 单位距离猜想上试试。

💡#23

@alexngsx
https://x.com/alexngsx/status/2065080157149507665
对 MIT 一个新框架的犀利解读：大多数号称自我改进的 agent，其实只是在固定的问题框架内做优化——对同一个问题给出更好的答案，但从不改变框架本身。论文造了两个真正会换框架的系统：Builder/Breaker——一个破坏者 agent 用最小描述长度门槛挑战表征框架本身；以及一个能修改自身范畴结构的带证明知识图谱。给开发者的结论：检索准确率、任务成功率这些指标天然奖励优化，结构上就探测不到发现。

💡#24

@DJLougen
https://x.com/DJLougen/status/2065182709329141960
hive v0.6 抛出了今天最挑衅的脚手架论断：GPT-2——2019 年的前 agent 时代模型，没有指令微调、没有工具训练、没有 RLHF——套上 hive 的 CPU 路由加因果记忆之后，能解决 85% 的 SWE-bench-lite 题目。他的结论：agent 能力不在权重里，在脚手架里。

💡#25

@hnfgns
https://x.com/hnfgns/status/2065026740380926248
两天的 Fable 重度使用，换来了对 loop 热潮最锋利的模型侧解释：Fable 是出色的问题解决者，平庸的架构师。短小具体的任务上精准且明显强于 Opus；但在长视野、高层级的工作上反而不如 Opus——急于下结论，需要不停纠偏。他的点睛之笔：这正是 agent loop 叙事突然铺天盖地的原因——模型撑不住时间视野，只能靠 harness 来撑。

💡#26

@nateberkopec
https://x.com/nateberkopec/status/2065199756813730300
一位老兵的『harness 收缩清单』：那些他过去需要 harness 机制才能做、现在模型直接就会的事。Worktree 和 checkout、相当程度上的 autoresearch 和 goals（他提醒大家想想当年要排队发 continue 才能让模型专注五分钟的日子）、还有浏览器测试——相关 skills 基本过时了。六个月前的循环工具链，正在被模型一步步吸收。

💡#27

@Michaelvll1
https://x.com/Michaelvll1/status/2065158453677740224
SkyPilot 的维护者注意到，他们做的 autoresearch 并行化副业项目成了 Recursive 报告里的基线。他从图表里读出了神经架构搜索（NAS）时代的回归——进化搜索、随机搜索那一套——但有一个本质区别：现在的 agent 能对每个实验的丰富信号做推理，而不只是看分数，这把探索空间撑大了一个量级。他的判断：agent 基础设施还有很长的进化路要走。

💡#28

@pgEdgeInc
https://x.com/pgEdgeInc/status/2065090909046198329
pgEdge 的 AI DBA Workbench 正式 GA，并公开了循环的真实构造。内置 agent Ellie 是一个 agentic loop，驱动任意 LLM 走一组固定的、数据库感知的工具调用——模型从不直接查询你的数据库，这是设计而非限制。异常检测分三层以保持循环便宜：z-score 基线抓明显偏离，pgvector 相似度搜索标记与历史异常匹配的模式，LLM 升级只处理便宜层分类不了的东西。所有指标、基线和告警历史都存在你自己能 SELECT 的 Postgres 表里。

💡#29

@MangQiuyang
https://x.com/MangQiuyang/status/2065149786207166868
对『用 skill 方案在 Lean 里形式化验证 OpenAI 论文证明』一事的认真回应：关键挑战不是怎么证，而是证什么——怎么把一篇论文转化成正确的 Lean 形式化。他抛出了对整个领域都重要的开放问题：基于 skill 的方法能否泛化到复现之外更广的 autoresearch 场景？毕竟静态的 skill 未必装得下测试时学到的知识。

📡 生态产品雷达

生态产品雷达
今日 loop 讨论中被提及 3 次以上的工具、项目与基准：
- karpathy/autoresearch - 仍是所有人对标的参考实现
- Recursive (Recursive_SI) - 今天横扫三个基准 SOTA 的自动化研究系统
- NanoGPT Speedrun / NanoChat - 已成为研究循环试验场的社区基准
- Fable 5 / Claude Code - 本周大多数用户自建循环的引擎，/goal 和 /loop 成了原语
- OpenClaw - 用户给它接自审与自我优化循环的平台
- Hermes Agent - 反复被拿来对比的自我改进开源 agent
- Codex - 仓库维护类自动循环的首选执行器
- Mac Mini - 循环经济学的高频答案：买断硬件，杀死计价器

← 上一篇

超级用户日报: 2026-06-13

灵感雷达: 2026-06-13

← 返回所有文章

加载中...

Loop 日报: 2026-06-13

相关文章

评论