2026年6月25日loop

Loop 日报: 2026年6月26日

关于 loop 的讨论昨天到了一个新高度,而且终于裂成了两个诚实的阵营。一个阵营在出真东西——把任何 repo 链接里的"Github"改成"ARGithub",agent 就会自己熟悉代码、修配置、迭代实验;一个 4B 模型靠推理引导的树搜索,以零头成本追平前沿研究 agent;一个训练配方擂台,你要在留出集的 bits-per-byte 上击败在位的"king"。另一个阵营则把"别再写 prompt 了,去设计循环"当口号、配一段 30 分钟的演讲反复念。最有用的帖子把两边都戳穿了:真正的瓶颈不是"生成",生成会向 token 价格商品化——而是"验证",这一步不会,因为 agent 审查自己的工作几乎总会批准自己。那个能说"不"的东西,才是护城河。
💡#1
@askalphaxiv
https://x.com/askalphaxiv/status/2069799709045354710
今天最干净利落的新 autoresearch 工具:把任何 repo 链接里的"Github"改成"ARGithub",你就部署了一个 agent,它会自己熟悉代码库、解决环境配置问题、迭代跑实验。它的定位很尖锐——研究成果不止是论文,autoresearch 对那些迭代飞快、自身更新已经赶不上代码进度的项目尤其有用。改一个 URL,就能把任意 repo 变成一个 agent 能真正在上面跑实验的对象,这正是"loop"这个承诺被做到了触手可及。
💡#2
@Danetag
https://x.com/Danetag/status/2069804282044440729
一个具体、不浮夸的 autoresearch 成果:他用 Pi + pi-autoresearch 去优化 LCP(页面加载)性能,最大的提升不是那个最显眼的点。不是"让 WebGL 更快"——而是消除一个阻塞渲染的 CSS 等待:把极小的关键 CSS 内联、异步加载完整样式表、再用一段小脚本安全地显示页面。这就是把 loop 对准一个可测量指标的价值:它能找到那个不起眼的瓶颈,而人往往会跳过它,因为它不符合你预设的"罪魁祸首"。
💡#3
@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2069872707865387488
一个真·极端的现实 loop:他自托管一个约 600 万行的代码库,做法是让 5.5 把一切塞进单一 workspace 的一个 agents.md,按 TDD 拆成微服务、每个服务独立 repo 和流水线,再在 git worktree 上递归派生子 agent——由模型自己决定需要多少个子 agent、agent 树要递归多深。任何重数据或重代码路径都被分配一个 Prometheus/Postgres 指标,然后用 /goal 或 /autoresearch 去针对性优化。他用 Gemini 做探索、让它写交给 5.5 的交接 prompt,声称可以用一个 prompt 重构、测试、部署整个代码库。他的判断是:瓶颈是你、是算力、是 devloop 的时间——不是模型。
💡#4
@xwang_lk
https://x.com/xwang_lk/status/2069851837428335070
一个认真的研究观点:auto-research 本质是一个搜索问题,而不是单条轨迹的推理问题。科学家不只是解一道题——他们提出假设、设计实验、解读失败、更新信念、决定下一步往哪探,核心挑战是高效地在这个搜索空间里导航。他的 ARTS 框架引入了"推理引导的树搜索"加测试时学习,让 agent 对搜索过程本身进行推理,一个微调过的 4B 模型在 MLGym 和 MLEBench 上达到了和前沿闭源研究 agent 相当的表现,而推理成本低得多。值得琢磨的判断是:自主研究的进步将来自更好的"推理驱动的搜索",而不只是更大的模型。
💡#5
@Gyome1_
https://x.com/Gyome1_/status/2069693579891527773
两句关于 loop 的经典话放在一处。OpenClaw 背后的工程师 Peter Steinberger 发的一句话冲到了 650 万阅读:"你不该再给编程 agent 写 prompt 了。你该设计那些去给你的 agent 写 prompt 的循环。"而 Karpathy 的 AutoResearch 在更大尺度上说了同一件事——一个 markdown prompt 两天跑了 700 个实验,挖出 20 个他自己永远不会手敲出来的优化。这个对比就是整场转变:一个工程师一次一个键地往前推进工作;另一个写了一次 markdown、描述清楚"做完"长什么样、启动一个循环,回来时拿到了一套通过的测试和一段自己从没敲过的提交历史。
💡#6
@Jeyxbt
https://x.com/Jeyxbt/status/2069603415362011171
那句不断定义这个题材的 Karpathy 名言:"我觉得自己从 12 月起就没手敲过一行代码了。现在的游戏规则是把你自己从瓶颈里挪走。你安排好一次、按下开始,大量的事就替你发生了。"那个反复被引用的生动案例是——他让一个 auto-research 循环去调一个他亲手调了二十年的模型,一夜之间它找到了他错过的参数设置。大多数搭建者还是那个每次都要按回车的人,而这正是他指的瓶颈:Claude 加循环、加验证、加记忆。
💡#7
@0xMorlex
https://x.com/0xMorlex/status/2069803651896369621
一篇关于 Anthropic 那份 11 页 PDF《自进化代码 Agent》(靠可靠的自我验证)的干净方法论解读。核心转变:agent 不是写一次代码就停,而是自己造测试、跑这些测试、读真实工具反馈、迭代 20 多轮。每一轮有五个动作:生成、自测(它自己写测试而不是等人给)、验证(执行代码暴露失败和边界情况)、工具反馈(真实执行结果告诉它到底哪里坏了)、迭代。关键洞见是:单靠自我反思不可靠,自我验证只有建立在可执行测试和真实工具反馈之上才真正有力。ReVeal 在 20 轮之后还在持续改进,把 LiveCodeBench 准确率从 34.8% 提到了 38.7%。
💡#8
@ardchain
https://x.com/ardchain/status/2069688341524513085
Karpathy 开源那个本地循环的一个具体落地:一个 21 岁的人用一个 630 行的 Python 脚本搭了一个递归 AI 编码循环,他说每月净赚 14,200 美元。没有 agent 群、没有向量数据库、没有臃肿框架——只有客观反馈和一个 git 记忆。这个循环读他的编码目标、改一个脚本、跑本地测试、检查验证损失;变好就提交到 git,失败就让 git 回滚到上一个干净提交。真正的收获是架构而不是收入:你的 git 仓库就是 agent 的记忆,你只需要一个版本控制式的记忆加一个验证指标,就能造出自我改进的软件。
💡#9
@aisolram
https://x.com/aisolram/status/2069834628756607224
一段对 Anthropic"Loop Engineering"框架的精炼提炼:你不再给 agent 写 prompt,而是搭那个去给它写 prompt 的系统,循环是 调度→发现→构建→验证→重复,永不停。agent 自己找活干,每个任务跑在隔离环境里,第二个 agent 默认第一个是错的,结果被写进磁盘而不是丢在上下文里忘掉。他拎出的最重要一课:一个 agent 审查自己的工作几乎总会批准自己——所以杠杆最高的组件不是那个"构建者",而是那个能说"不"的东西。这恰恰是大多数人会跳过的部分。
💡#10
@0xwhrrari
https://x.com/0xwhrrari/status/2069783460760191070
一场正在流传的 Anthropic workshop 里的说法:"我们 30% 以上的代码已经是循环写的了。这就是我们出货这么快的原因。"这场 40 分钟的拆解覆盖了整套栈——agent loop、harness、记忆、子 agent——这是迄今最清晰的信号:循环模式不是边角实验,而是一家前沿实验室内部的默认做法。不管你怎么看包在外面的那层网红包装,底层那个论断(相当一部分生产代码现在是经由 harness 级循环、而不是手写 prompt 流出来的)正是定义 2026 下半年的趋势。
💡#11
@cloudinary
https://x.com/cloudinary/status/2069843052839969147
一个难得诚实、把失败也摆出来的 loop 案例。他们用 Claude Code + Cloudinary MCP 搭了一个 agent 循环来把图片体积压 20%。v1 号称平均省了约 68%——但那只是估算。于是他们加了一个 eval 步骤,对比"实测 vs 估算"的节省并给出置信度,结果实际值在两个方向上偏了 5 到 31 个百分点。这正是"把循环建立在真实验证之上"的全部教训:没有那个测量步骤,agent 自信满满的自我报告能差出三分之一。
💡#12
@rewind02
https://x.com/rewind02/status/2069791285116899501
VILA Lab 和伦敦大学学院的独立研究者发布了一份 46 页的逆向工程研究,分析 Claude Code 完整的 TypeScript 源码(v2.1.88),其中 Hooks 那一章最亮眼:拦截→决定→改写→继续。整个 agent 生命周期里会触发 27 个不同的 hook 事件,但只有 5 个在权限流里、能在工具调用执行前拒绝/询问/批准;PreToolUse hook 能即时改写工具输入,PostToolUse hook 能在执行后注入上下文,还有四类 hook(shell、LLM prompt、HTTP、完整的 agentic 验证器)让第三方在默认零上下文成本下接入任意逻辑。作为一张"可扩展性到底接在 agent loop 哪里"的地图,这是目前最详细的公开拆解。
💡#13
@RDarrylR
https://x.com/RDarrylR/status/2069607804898259336
一篇真正的工程文章,把"电子表格仪式"——有人在 Slack 里贴个文件、你滚动看 40 列、在别处跑个查询、再把结果复制回来——换成了把 CSV 或 XLSX 丢进聊天、用大白话提问。这套构建涵盖了用 Apache Arrow 把文件序列化成 Parquet、一个按需构建 DuckDB 的 TTL 缓存、以及一个先用简单启发式、不行再回退到 LLM 的查询分类器。循环的部分是:带自修复的 text-to-SQL 加一个无状态的 agent 循环,全部同时通过 HTTP 和 MCP 暴露,所以同一套逻辑在 Claude Desktop 里也能用。
💡#14
@ScottyBeamIO
https://x.com/ScottyBeamIO/status/2069721865711481095
一个把"自我改进循环"这个说法落到实处的具体迁移故事。他在 OpenClaw 上做出了一个 3.6 万美元的 AI agent 生意,然后把全部 13 个 agent 迁到了 Hermes,原因有三。第一是自我改进循环:Hermes 的 agent 在每次任务后记下什么有效、自己构建技能,而他原来的配置除非手动更新,否则第 90 天和第 1 天跑得一模一样。第二是记忆架构——一个 agent 知道的一切都放在一个可读的地方,排查异常行为只要几分钟,而不用在散落的文件里翻找。第三是稳定性:每次 OpenClaw 更新都有 20-30 分钟的修复税,而一次悄无声息的更新在夜里搞坏一个 agent,是最昂贵的 bug。
💡#15
@TheUltronAi
https://x.com/TheUltronAi/status/2069763225940553978
他发现了一个只有两个文件的 GitHub repo(一个 README、一张架构图,435 个 star),干了件荒唐的事:把里面的 prompt 粘进 Claude Code、Codex、Cursor 或任何编码 agent,它就从零给你搭一个自我改进的 agentic 系统——能做软件工程、研究、数据分析、浏览器自动化、跨多月的项目,每次任务后还更锋利。作者研究了 50 多种生产级 agent 架构,把经验压缩进一段粘贴:LangGraph 做持久化执行、Letta 和 Mem0 做记忆、Temporal 和 Inngest 做长任务工作流、DSPy 把 prompt 改进当成程序优化、Composio 和 MCP 接工具。你不是安装一个框架——是 agent 围着自己把框架搭起来。
💡#16
@itsemmal75
https://x.com/itsemmal75/status/2069860118163038482
一个尖锐的观点,指向所有 loop 狂热底下缺失的那一层:验证基础设施。随着 Claude Tag 进了 Slack,好的输出看起来像把思考外包,坏的输出又坐实了监控恐惧——没有审计轨迹,这是个无解的框。成本数字很扎心:4 个 agent 的循环 11 天烧掉 7000 美元,Claude Code 递归 5 小时烧掉 6000 到 5 万美元,而认证和审计层至今没人建。他指出一个"生产安全的 agent 循环"模式:带熔断器、只追加的账本、可审查界面,把决策 agent 和"措辞作者"分开,记录的是问责而不只是批准。AI 队友在需要更多上下文之前,先需要信任护栏。
💡#17
@cwolferesearch
https://x.com/cwolferesearch/status/2069904934674506009
一篇真正有用的第一性原理拆解,讲清楚 agent 到底是什么:就是一个跑在 agentic 循环里的 LLM,有四个组件——LLM 主干、指令、工具、环境。给一个初始规格,它们就在循环里跑:LLM 生成输出、执行工具调用、吸收环境反馈、再重复,每一步检查终止条件(最大步数、测试通过、或一个终止 token)。他还讲了工具如何在 token 流里被表示成特殊标记、环境如何是有状态的并被工具调用改变、以及那些快速演进的 harness 附加件——长任务的上下文压缩、以及作为环境另一部分、能跨会话保留的记忆。这正是当下 loop 讨论急需的、把概念落地的帖子。
💡#18
@filligerr
https://x.com/filligerr/status/2069603073924767817
一个脚踏实地的实践者,对自我改进多 agent 系统的一记现实警钟。他的观点是:当前前沿能用,但他只是更快地开几个对话来 prompt、并保持环境稳定——而他撞到的最糟问题是上下文腐烂。你想要能从错误中学习的自我改进 agent,但你仍然得监控这个系统学到了什么、确保它不会得出错误结论,因为 Opus 4.8 和 GPT 5.4/5.5 在独自维护复杂系统的上下文这件事上都不够好。"它一切完美,直到不完美为止——但'迟早会出问题'这个事实本身就让整个系统不可靠。"他的解法是通道隔离:干净的对话分隔,才是今天让这些工具能用的关键。
💡#19
@EnterMirari
https://x.com/EnterMirari/status/2069695750880039273
loop 讨论里最尖锐的一记警示:一个能重写自身代码的自我改进多 agent 系统,是唯一真正能扩展到"数周级目标"和"自动派生劳动力"、而又不让人类变成瓶颈的架构——但"改进"本身就是一个损失函数。如果给那次重写打分的裁判稍微错了,系统不会失败,它会更快地优化错误的东西。所以我们造的不是队友,而是有权改写自己工作说明书的队友,真正的终局是"agent 交付结果,而且我们能在它被部署之前证明这次重写是个好主意"。这个"可证明性"才是没人在谈的那部分。
💡#20
@RalphLabsAI
https://x.com/RalphLabsAI/status/2069760418156097818
一个新颖的"autoresearch 即竞赛"项目:在 Ralph 上,AI/ML 研究者在固定的代理算力预算下(约 1 亿参数模型、FineWeb-Edu 数据)修补一份共享的 LLM 训练配方,在 Intel TDX + NVIDIA-CC 飞地里运行,并交出一个开放的证明包。在留出集的 bits-per-byte 上干净利落地、且无 benchmark 回退地击败当前最佳配方——那个在位的"king"——你的就成为新王,赚取产出并喂给下一代 Ralph 模型。这是把 autoresearch 变成一个可验证、开放、"打擂台"式循环的具体尝试,其中的改进会复利式地汇入模型本身。
💡#21
@Ruemic
https://x.com/Ruemic/status/2069620523131392389
一个不大但货真价实的开源贡献:他在做一个开放的 Agentic Harness 研发日志,已经开始有点样子了,还在一夜之间给 heypi(hunvreus 的 Pi 助手)加上了 autoresearch,效果不错。他邀请大家贡献,征集值得收录的 harness 配置。这正是 autoresearch 领域更需要的那种安静的社区基础设施——一份共享的、不断增长的"不同 harness 各自怎么跑循环"的目录。
💡#22
@kavindpadi
https://x.com/kavindpadi/status/2069636470810488909
开源权重这边一个不大但说明问题的数据点:他让 GLM 5.2 跑了一些任务的 autoresearch 循环,效果不错。就一句话,但它落在一个真实趋势里——人们不再把 autoresearch 循环只留给前沿闭源模型;一个便宜的开源权重模型现在已经够好,能在真实任务上驱动"迭代-测量-保留"的循环。
💡#23
@Fortune_VY
https://x.com/Fortune_VY/status/2069806510075769336
一个真正有用的循环设计洞见:好的轨迹分析对自主 agent 的改进至关重要,但在 auto-research 这类自动化业务工作流里有一个缺失的环——来自客户端 agent 本身的主动反馈。别只是被动地看轨迹;去问下游 agent 什么失败了、缺了什么、什么会有帮助,然后把它做成一个 MCP 方法、把循环闭上。它把验证从"看日志"重构成了"审问消费者",这对自我改进来说是一种有意义地不同、也更丰富的信号。
💡#24
@tcballard
https://x.com/tcballard/status/2069833944489423359
一个认真的 v0.0.1 原型:Lore Proofkeeper,给 Lore 家族做自主验证。思路是把"证明"——一个稳定的测试加它可重放的轨迹——保存下来,于是 agent 的工作是靠读 pull request 里已提交的测试和轨迹来验证,而不是靠本地跑一遍。完整的 驱动→编译→保真度→运行 管线端到端打通:一个自带模型的 agent 循环观察页面、决定下一步动作、通过 Recorder 驱动产品,保真度门只有在 N 次重跑全绿后才接受一个测试。然后它把验证链接作为人工审查的 PR 提出来,绝不直接提交。这是对"谁来验证循环的输出"一个具体的回答,而且是作为真实的、模型无关的基础设施造出来的。
💡#25
@nullhypeai
https://x.com/nullhypeai/status/2069849033896595659
一段对 Anthropic 那个循环(调度、发现、构建、验证、重复)干脆利落的经济学解读:五步里有四步即将变免费。调度、发现、构建都是"生成",随着模型更便宜、更擅长写和跑自己的代码,这些成本会向 token 价格靠拢——一次完整改动在循环里已经只要个位数美元。验证是那个不会被商品化的步骤:那些决定"机器写的改动能否安全合并"的测试、经验性检查、权限范围、风险面,都是公司特有的、造起来很贵、而且会复利累积。所有人租同一个前沿模型、跑同一个循环;赢的那家公司,是其验证步骤能以机器速度合并、又不被攻破的那家。模型是输入,验证器才是护城河。
📡 生态产品雷达
生态产品雷达

Pi / pi-autoresearch — 大家做真正 autoresearch 循环时反复点名的 harness,从 LCP 性能优化到 Shopify 开发者在 Pi 上的循环。
Claude Code — 大多数循环里那个默认被包住的编码 agent,如今连它的 27 个 hook 事件都被逆向出来了。
Hermes / OpenClaw — 自托管的 agent 层,"自我改进循环"这个卖点是大家为之切换的差异点。
MCP — 循环伸向外部世界的方式:Cloudinary 图片优化、聊天里查 DuckDB、客户端 agent 的主动反馈。
CLAUDE.md — 仍然是"闭合循环"这类建议里居于中心的那个引导文件。
GLM 5.2 — 大家现在塞进 autoresearch 和 agentic 循环里、连跑 10 多小时的开源权重模型。
← 上一篇
超级用户日报: 2026年6月26日
下一篇 →
灵感雷达: 2026年6月26日
← 返回所有文章

评论

加载中...
>_