2026年6月22日loop

Loop 日报: 2026年6月23日

今天的 loop 迈出了迄今最大的一步——走出软件,进入物理世界。英伟达的 ENPIRE 让八个 Codex agent 接管一支真实机器人队伍,分析失败、重写策略、自己跑实验,做到 99% 成功率,循环里没有人。但最有启发的案例反而更小、更实诚:一位维护者把一台本地机器上跑了一个周末的 agent 开的四个 PR 全部合并,并直言价值不在模型,而在那套抓住它"信誓旦旦写错"的分层验证;还有一张 4000 美元的账单,来自一个卡在重试循环、没有预算上限的 agent,如今变成一条硬规矩:每个 loop 都得带天花板。自我改进这条线也在继续成熟——Hermes 把 loop 做成默认、HarnessX 连脚手架本身都拿来演化,以及一句尖锐警告:自我评判会径直走进过拟合陷阱。贯穿全场的一句话是:loop 的好坏,取决于你在它周围放的那个验证器。
💡#1
@SciTechera
https://x.com/SciTechera/status/2068772701477703774
当天的旗舰级 loop 从比特跨进了原子:第一次,八个基于 Codex 的 autoresearch agent 端到端地操控一支真实机器人队伍,中间没有人做桥梁。英伟达的 ENPIRE 框架让这些 agent 自己分析失败、重写代码、重训策略、读论文、发起新实验。这支队伍学会了毫米级精度的显卡安装、金属针排布、扎带切割和 Push-T,靠在真实硬件上持续自我改进做到了高达 99% 的成功率。他们甚至发现了一种新的"物理扩展"效应——更大的机器人队伍产生更多真实世界经验、加速学习。
💡#2
@defilan
https://x.com/defilan/status/2068594063960617230
当天最实诚的本地 loop 复盘:他周末把一个 agent 编码器放进 LLMKube(他维护的一个 Kubernetes operator),它开的四个 PR 全部合并,跑的是单台 AMD Strix Halo 上的 27B 编码器,成本约等于电费。真正的故事不是"本地模型写出了代码"——而是当模型信誓旦旦地写错时,是什么抓住了它。他的 Foreman harness 做了分层验证:一道快速的工作区内门禁、一道模型骗不过的更重的集群门禁、一个发现它跑去改错文件就报警的监视器,以及一条把原始测试失败不加提示喂回去的反馈环,三轮后集成测试套件收敛为全绿。结论是:价值不在模型,而在它周围那套诚实的验证。
💡#3
@OmriBenSho1995
https://x.com/OmriBenSho1995/status/2068750045554286916
一个两天烧掉 4000 美元的警示故事:一个 agent 卡在重试循环里反复调用付费 API,既没有预算上限、没有迭代上限,也没有告警。修复只花了 15 分钟,教训却是一张账单。他现在的规矩是:每个 agent loop 都得带一个硬性的预算/迭代天花板,否则不准上线。这是对所有"过夜跑起来"热情的纪律性反向暗流——没有急停开关的自主,只是一场慢动作事故。
💡#4
@analogalok
https://x.com/analogalok/status/2068732169670025639
一个本地 loop 走了多远的具体标志:他在单张 RTX 4060 笔记本显卡上跑了 Unsloth 的 Q4_K_XL 量化版 Gemma 4 26B-A4B(一个只激活 4B 参数的稀疏 MoE)——8GB 显存、30 tok/s、64K 上下文,不碰云、不碰 API。解锁的关键是谷歌的 QAT 加上近期 llama.cpp 的 MTP 支持,他说任何 6-8GB 的消费级卡新旧都能跑。他让它一次性做出一个足球主题的 Flappy Bird,完整可玩,而他对 loop 的关键判断是:64K 上下文恰恰是让 Hermes agent loop 能在本地跑起来的条件,而不只是单轮聊天。
💡#5
@banteg
https://x.com/banteg/status/2068667155701186887
一个犀利的判断,点出 loop 真正擅长哪类问题:匹配式反编译天生就是 autoresearch 的形状。你把二进制切成函数边界、把它们遮掉、搞清工具链,然后写一个个小函数反复编译,直到产出完全相同的汇编。因为每一步的进展都可度量、可验证,这个 loop 能连跑几周也不会乱套。这是当天关于"可编辑文件加可度量指标才是无人值守循环前提"最干净的一句话。
💡#6
@Truntr_
https://x.com/Truntr_/status/2068695880840929482
一个具体的多智能体 loop 结果:他装了 context-engineering-kit 里的 SDD 插件,用的是一个三 agent 循环——规划、实现、反思——和单 agent 比差距很大。第一遍大约 60% 会失败,但第三遍就能干净交付。一个虽小但有用的数据点:loop 的价值在迭代结构里,而不在某一个 agent 多聪明。
💡#7
@Sina_GPT
https://x.com/Sina_GPT/status/2068836208940331045
一个干净、可复现的 agent loop 模式,建在 Claude Code 上用来重做定价页:给 agent 一个目标,agent 写代码,然后把产出和目标对照,不达标就重试,达标才返回结果。出处是 @_MaxBlade 的一段讲解。这是把"目标—写码—对照—重试"这个范式提炼成读者能直接照搬的最小形态。
💡#8
@KianzadS
https://x.com/KianzadS/status/2068493049538232563
一个来自非编码领域的有用 loop 教训:他做了个给孩子用的端侧学习 agent,体会到小型 VLM/LLM 并不只是"缩水的大模型"。它们在系统给出清晰任务、结构化反馈和一个紧凑的 agentic loop 时表现最好——也就是说,小模型周围那套 harness 比模型本身的能力更要紧,这正是本地 loop 那套思路在教育边缘 AI 上的体现。
💡#9
@yibie
https://x.com/yibie/status/2068634106129498439
来自 awesome-autoresearch 索引(现已 455 条)的维护者,本轮新增两条:autoresearch-competitions,一个 Tangle Network 的去中心化"改进市场"蓝图,用悬赏征集更好的 agent/模型/算法,并以 held-out 测试评分;以及 Maka-Agent,一个 agent 自主优化自身系统提示词的闭环——变体生成、Harbor 容器评测、预写日志、acceptance 策略一整套。一张关于 autoresearch 工具前沿究竟到了哪的好快照。
💡#10
@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2068589741529080212
一个有真实数字的自我改进内容 loop:一个 builder agent 写初稿,另一个 judge 打 0 到 100 分,每个弱点都被打回,初稿不断循环直到拿到 90 分以上。他说靠这个把一个站做到了每天 222 次点击、在"最佳 AI 社区"这个词上拿下谷歌 AI Overviews 第一,agent 直接通过 Netlify API 发布,每一轮都存进 Obsidian 记忆库。让它跑通的纪律是:builder 永远不给自己的作业打分。
💡#11
@neil_xbt
https://x.com/neil_xbt/status/2068608358878511128
他主张自我改进的 loop 才是把 Hermes 和同类云端 agent 区分开的架构细节,而且它是默认就带的,不是你要自己搭的。每个部件——视觉分析、网页摘要、上下文压缩、跑自我改进 loop 的 curator、判断目标是否真正达成的 judge——都独立路由到不同的提供商,而不是在同一个名义模型的多个不同配置实例间被悄悄打乱。他的说法是:那些和"提供商被静默轮换"作斗争的 agent 建设者,和那些跑着显式路由加自我改进记忆层的建设者之间,差的是架构,不是技术。
💡#12
@thatsFrScience
https://x.com/thatsFrScience/status/2068791162836594817
一段第一人称记述,讲他用几周搭了个"AI 软件工厂",并从怀疑者被转化成"自建派"。配置是:完全自有、可切换的沙箱环境,多个永远最新的 agent(Claude Code 和 opencode),通过 Tailscale 让沙箱在公司网络内可访问,实时协作——一个人启动 agent、另一个人接手引导,7×24 在线让活儿在没人坐在电脑前时也能推进,用 1Password 做范围化密钥,还有给全公司预打包的技能。点睛之笔是那个 loop:他们用这些 agent 来搭建并改进工厂本身,套娃一样。
💡#13
@IntuitMachine
https://x.com/IntuitMachine/status/2068617121978810439
一条干货满满的方法论长推,讲 HarnessX——它把 agent 的整个运行时(提示词、工具、记忆、控制流)当成一个有类型、可演化的对象,让脚手架自我改进,号称在弱模型上提升 44%。一个 AEGIS 元 agent(消化、规划、演化、批评四段)通过对执行轨迹做 RL 来演化 harness,配上确定性门禁和变体隔离来防止 reward hacking 和退化。反直觉的结论是:越弱的模型受益越大(逆缩放),而协同演化在同一个 loop 里顺带把模型也训了,因为你本来就为这些 rollout 付了钱,相当于"白送"的增益。
💡#14
@rgvrmdya
https://x.com/rgvrmdya/status/2068832042239078424
一个尖锐的批评,指出自我改进 loop 在哪里出问题:今天的自学习靠自我评判——Hermes agent 跑实时 RL 循环,用本地编译器或一个 LLM-as-judge 提示问自己"我干得好吗"——这正好踩进自我评估(过拟合)陷阱。他给的解法是把 agent 的日志送到一个外部网络,由质押了、有逐利动机(且常有人监督)的节点投票判断代码是否安全正确,让 agent 拿到一个来自市场共识、难以被篡改的奖励分,而不是它自己的意见。
💡#15
@xmyttle
https://x.com/xmyttle/status/2068789804305957235
一句利落的话,点明记忆为什么把聊天机器人变成 agent:升级的不是更大的脑子,而是一段能熬过对话的记忆。多数 AI 记忆是浅层事实(你的名字、工具、项目);真正要紧的是程序性记忆——你折腾 40 分钟才找到的修法、走了五次弯路才解决的 bug。一个自我改进的 agent 用一个简单 loop 把它留住:遇到困难、reviewer 提炼教训、写或更新一个技能、curator 清理技能库,下一次运行就更聪明地开始。他的话是:AI 今年没变聪明,只是不再遗忘了。
💡#16
@0rdlibrary
https://x.com/0rdlibrary/status/2068826547029410041
一个不大但真实的"在家做 autoresearch"快照:他在自己的 Mac 上本地跑模型训练,用 Codex 5.5 开"超高强度循环",采用 Karpathy 风格的 auto-research,让 Codex 和 Claude 同步配合。还很早期,但又是本周反复出现的主题里的一个数据点——Karpathy 那套 autoresearch loop 正被移植到个人电脑和便宜的本地配置上,而不再是 GPU 集群的专利。
📡 生态产品雷达
生态产品雷达

Hermes (Nous Research) - loop 这拨人反复在上面搭东西的自我改进 agent,把模型路由和自我改进记忆 loop 做成默认;模型一到 64K 上下文就能在本地跑起来。
Codex - OpenAI 的编码 agent,ENPIRE 那支八 agent 机器人队伍背后的引擎,也是好几个"在 Mac 上本地做 autoresearch"配置的核心,常和 Claude 同步配合。
Claude Code - "目标—写码—对照—重试"循环、多智能体工厂、自我改进内容流水线的默认 harness。
awesome-autoresearch - 社区索引(现已 455+ 条),跟踪 autoresearch 工具前沿,从去中心化改进市场到自优化提示词的 agent。
ENPIRE (NVIDIA GEAR) - 把 autoresearch loop 带到真实机器人硬件上的框架,并新观察到更大队伍带来的"物理扩展"效应。
← 上一篇
超级用户日报: 2026年6月23日
下一篇 →
灵感雷达: 2026年6月23日
← 返回所有文章

评论

加载中...
>_