2026年6月22日loop

Loop 日报: 2026年6月23日

今天的 loop 迈出了迄今最大的一步——走出软件，进入物理世界。英伟达的 ENPIRE 让八个 Codex agent 接管一支真实机器人队伍，分析失败、重写策略、自己跑实验，做到 99% 成功率，循环里没有人。但最有启发的案例反而更小、更实诚：一位维护者把一台本地机器上跑了一个周末的 agent 开的四个 PR 全部合并，并直言价值不在模型，而在那套抓住它"信誓旦旦写错"的分层验证；还有一张 4000 美元的账单，来自一个卡在重试循环、没有预算上限的 agent，如今变成一条硬规矩：每个 loop 都得带天花板。自我改进这条线也在继续成熟——Hermes 把 loop 做成默认、HarnessX 连脚手架本身都拿来演化，以及一句尖锐警告：自我评判会径直走进过拟合陷阱。贯穿全场的一句话是：loop 的好坏，取决于你在它周围放的那个验证器。

💡#1

@SciTechera
https://x.com/SciTechera/status/2068772701477703774
当天的旗舰级 loop 从比特跨进了原子：第一次，八个基于 Codex 的 autoresearch agent 端到端地操控一支真实机器人队伍，中间没有人做桥梁。英伟达的 ENPIRE 框架让这些 agent 自己分析失败、重写代码、重训策略、读论文、发起新实验。这支队伍学会了毫米级精度的显卡安装、金属针排布、扎带切割和 Push-T，靠在真实硬件上持续自我改进做到了高达 99% 的成功率。他们甚至发现了一种新的"物理扩展"效应——更大的机器人队伍产生更多真实世界经验、加速学习。

💡#2

@defilan
https://x.com/defilan/status/2068594063960617230
当天最实诚的本地 loop 复盘：他周末把一个 agent 编码器放进 LLMKube（他维护的一个 Kubernetes operator），它开的四个 PR 全部合并，跑的是单台 AMD Strix Halo 上的 27B 编码器，成本约等于电费。真正的故事不是"本地模型写出了代码"——而是当模型信誓旦旦地写错时，是什么抓住了它。他的 Foreman harness 做了分层验证：一道快速的工作区内门禁、一道模型骗不过的更重的集群门禁、一个发现它跑去改错文件就报警的监视器，以及一条把原始测试失败不加提示喂回去的反馈环，三轮后集成测试套件收敛为全绿。结论是：价值不在模型，而在它周围那套诚实的验证。

💡#3

@OmriBenSho1995
https://x.com/OmriBenSho1995/status/2068750045554286916
一个两天烧掉 4000 美元的警示故事：一个 agent 卡在重试循环里反复调用付费 API，既没有预算上限、没有迭代上限，也没有告警。修复只花了 15 分钟，教训却是一张账单。他现在的规矩是：每个 agent loop 都得带一个硬性的预算/迭代天花板，否则不准上线。这是对所有"过夜跑起来"热情的纪律性反向暗流——没有急停开关的自主，只是一场慢动作事故。

💡#4

@analogalok
https://x.com/analogalok/status/2068732169670025639
一个本地 loop 走了多远的具体标志：他在单张 RTX 4060 笔记本显卡上跑了 Unsloth 的 Q4_K_XL 量化版 Gemma 4 26B-A4B（一个只激活 4B 参数的稀疏 MoE）——8GB 显存、30 tok/s、64K 上下文，不碰云、不碰 API。解锁的关键是谷歌的 QAT 加上近期 llama.cpp 的 MTP 支持，他说任何 6-8GB 的消费级卡新旧都能跑。他让它一次性做出一个足球主题的 Flappy Bird，完整可玩，而他对 loop 的关键判断是：64K 上下文恰恰是让 Hermes agent loop 能在本地跑起来的条件，而不只是单轮聊天。

💡#5

@banteg
https://x.com/banteg/status/2068667155701186887
一个犀利的判断，点出 loop 真正擅长哪类问题：匹配式反编译天生就是 autoresearch 的形状。你把二进制切成函数边界、把它们遮掉、搞清工具链，然后写一个个小函数反复编译，直到产出完全相同的汇编。因为每一步的进展都可度量、可验证，这个 loop 能连跑几周也不会乱套。这是当天关于"可编辑文件加可度量指标才是无人值守循环前提"最干净的一句话。

💡#6

@Truntr_
https://x.com/Truntr_/status/2068695880840929482
一个具体的多智能体 loop 结果：他装了 context-engineering-kit 里的 SDD 插件，用的是一个三 agent 循环——规划、实现、反思——和单 agent 比差距很大。第一遍大约 60% 会失败，但第三遍就能干净交付。一个虽小但有用的数据点：loop 的价值在迭代结构里，而不在某一个 agent 多聪明。

💡#7

@Sina_GPT
https://x.com/Sina_GPT/status/2068836208940331045
一个干净、可复现的 agent loop 模式，建在 Claude Code 上用来重做定价页：给 agent 一个目标，agent 写代码，然后把产出和目标对照，不达标就重试，达标才返回结果。出处是 @_MaxBlade 的一段讲解。这是把"目标—写码—对照—重试"这个范式提炼成读者能直接照搬的最小形态。

💡#8

@KianzadS
https://x.com/KianzadS/status/2068493049538232563
一个来自非编码领域的有用 loop 教训：他做了个给孩子用的端侧学习 agent，体会到小型 VLM/LLM 并不只是"缩水的大模型"。它们在系统给出清晰任务、结构化反馈和一个紧凑的 agentic loop 时表现最好——也就是说，小模型周围那套 harness 比模型本身的能力更要紧，这正是本地 loop 那套思路在教育边缘 AI 上的体现。

💡#9

@yibie
https://x.com/yibie/status/2068634106129498439
来自 awesome-autoresearch 索引（现已 455 条）的维护者，本轮新增两条：autoresearch-competitions，一个 Tangle Network 的去中心化"改进市场"蓝图，用悬赏征集更好的 agent/模型/算法，并以 held-out 测试评分；以及 Maka-Agent，一个 agent 自主优化自身系统提示词的闭环——变体生成、Harbor 容器评测、预写日志、acceptance 策略一整套。一张关于 autoresearch 工具前沿究竟到了哪的好快照。

💡#10

@JulianGoldieSEO
https://x.com/JulianGoldieSEO/status/2068589741529080212
一个有真实数字的自我改进内容 loop：一个 builder agent 写初稿，另一个 judge 打 0 到 100 分，每个弱点都被打回，初稿不断循环直到拿到 90 分以上。他说靠这个把一个站做到了每天 222 次点击、在"最佳 AI 社区"这个词上拿下谷歌 AI Overviews 第一，agent 直接通过 Netlify API 发布，每一轮都存进 Obsidian 记忆库。让它跑通的纪律是：builder 永远不给自己的作业打分。

💡#11

@neil_xbt
https://x.com/neil_xbt/status/2068608358878511128
他主张自我改进的 loop 才是把 Hermes 和同类云端 agent 区分开的架构细节，而且它是默认就带的，不是你要自己搭的。每个部件——视觉分析、网页摘要、上下文压缩、跑自我改进 loop 的 curator、判断目标是否真正达成的 judge——都独立路由到不同的提供商，而不是在同一个名义模型的多个不同配置实例间被悄悄打乱。他的说法是：那些和"提供商被静默轮换"作斗争的 agent 建设者，和那些跑着显式路由加自我改进记忆层的建设者之间，差的是架构，不是技术。

💡#12

@thatsFrScience
https://x.com/thatsFrScience/status/2068791162836594817
一段第一人称记述，讲他用几周搭了个"AI 软件工厂"，并从怀疑者被转化成"自建派"。配置是：完全自有、可切换的沙箱环境，多个永远最新的 agent（Claude Code 和 opencode），通过 Tailscale 让沙箱在公司网络内可访问，实时协作——一个人启动 agent、另一个人接手引导，7×24 在线让活儿在没人坐在电脑前时也能推进，用 1Password 做范围化密钥，还有给全公司预打包的技能。点睛之笔是那个 loop：他们用这些 agent 来搭建并改进工厂本身，套娃一样。

💡#13

@IntuitMachine
https://x.com/IntuitMachine/status/2068617121978810439
一条干货满满的方法论长推，讲 HarnessX——它把 agent 的整个运行时（提示词、工具、记忆、控制流）当成一个有类型、可演化的对象，让脚手架自我改进，号称在弱模型上提升 44%。一个 AEGIS 元 agent（消化、规划、演化、批评四段）通过对执行轨迹做 RL 来演化 harness，配上确定性门禁和变体隔离来防止 reward hacking 和退化。反直觉的结论是：越弱的模型受益越大（逆缩放），而协同演化在同一个 loop 里顺带把模型也训了，因为你本来就为这些 rollout 付了钱，相当于"白送"的增益。

💡#14

@rgvrmdya
https://x.com/rgvrmdya/status/2068832042239078424
一个尖锐的批评，指出自我改进 loop 在哪里出问题：今天的自学习靠自我评判——Hermes agent 跑实时 RL 循环，用本地编译器或一个 LLM-as-judge 提示问自己"我干得好吗"——这正好踩进自我评估（过拟合）陷阱。他给的解法是把 agent 的日志送到一个外部网络，由质押了、有逐利动机（且常有人监督）的节点投票判断代码是否安全正确，让 agent 拿到一个来自市场共识、难以被篡改的奖励分，而不是它自己的意见。

💡#15

@xmyttle
https://x.com/xmyttle/status/2068789804305957235
一句利落的话，点明记忆为什么把聊天机器人变成 agent：升级的不是更大的脑子，而是一段能熬过对话的记忆。多数 AI 记忆是浅层事实（你的名字、工具、项目）；真正要紧的是程序性记忆——你折腾 40 分钟才找到的修法、走了五次弯路才解决的 bug。一个自我改进的 agent 用一个简单 loop 把它留住：遇到困难、reviewer 提炼教训、写或更新一个技能、curator 清理技能库，下一次运行就更聪明地开始。他的话是：AI 今年没变聪明，只是不再遗忘了。

💡#16

@0rdlibrary
https://x.com/0rdlibrary/status/2068826547029410041
一个不大但真实的"在家做 autoresearch"快照：他在自己的 Mac 上本地跑模型训练，用 Codex 5.5 开"超高强度循环"，采用 Karpathy 风格的 auto-research，让 Codex 和 Claude 同步配合。还很早期，但又是本周反复出现的主题里的一个数据点——Karpathy 那套 autoresearch loop 正被移植到个人电脑和便宜的本地配置上，而不再是 GPU 集群的专利。

📡 生态产品雷达

生态产品雷达

Hermes (Nous Research) - loop 这拨人反复在上面搭东西的自我改进 agent，把模型路由和自我改进记忆 loop 做成默认；模型一到 64K 上下文就能在本地跑起来。
Codex - OpenAI 的编码 agent，ENPIRE 那支八 agent 机器人队伍背后的引擎，也是好几个"在 Mac 上本地做 autoresearch"配置的核心，常和 Claude 同步配合。
Claude Code - "目标—写码—对照—重试"循环、多智能体工厂、自我改进内容流水线的默认 harness。
awesome-autoresearch - 社区索引（现已 455+ 条），跟踪 autoresearch 工具前沿，从去中心化改进市场到自优化提示词的 agent。
ENPIRE (NVIDIA GEAR) - 把 autoresearch loop 带到真实机器人硬件上的框架，并新观察到更大队伍带来的"物理扩展"效应。

← 上一篇

超级用户日报: 2026年6月23日

灵感雷达: 2026年6月23日

← 返回所有文章

加载中...

Loop 日报: 2026年6月23日

相关文章

评论