2026年6月25日loop

Loop 日报: 2026年6月26日

关于 loop 的讨论昨天到了一个新高度，而且终于裂成了两个诚实的阵营。一个阵营在出真东西——把任何 repo 链接里的"Github"改成"ARGithub"，agent 就会自己熟悉代码、修配置、迭代实验；一个 4B 模型靠推理引导的树搜索，以零头成本追平前沿研究 agent；一个训练配方擂台，你要在留出集的 bits-per-byte 上击败在位的"king"。另一个阵营则把"别再写 prompt 了，去设计循环"当口号、配一段 30 分钟的演讲反复念。最有用的帖子把两边都戳穿了：真正的瓶颈不是"生成"，生成会向 token 价格商品化——而是"验证"，这一步不会，因为 agent 审查自己的工作几乎总会批准自己。那个能说"不"的东西，才是护城河。

💡#1

@askalphaxiv
https://x.com/askalphaxiv/status/2069799709045354710
今天最干净利落的新 autoresearch 工具：把任何 repo 链接里的"Github"改成"ARGithub"，你就部署了一个 agent，它会自己熟悉代码库、解决环境配置问题、迭代跑实验。它的定位很尖锐——研究成果不止是论文，autoresearch 对那些迭代飞快、自身更新已经赶不上代码进度的项目尤其有用。改一个 URL，就能把任意 repo 变成一个 agent 能真正在上面跑实验的对象，这正是"loop"这个承诺被做到了触手可及。

💡#2

@Danetag
https://x.com/Danetag/status/2069804282044440729
一个具体、不浮夸的 autoresearch 成果：他用 Pi + pi-autoresearch 去优化 LCP（页面加载）性能，最大的提升不是那个最显眼的点。不是"让 WebGL 更快"——而是消除一个阻塞渲染的 CSS 等待：把极小的关键 CSS 内联、异步加载完整样式表、再用一段小脚本安全地显示页面。这就是把 loop 对准一个可测量指标的价值：它能找到那个不起眼的瓶颈，而人往往会跳过它，因为它不符合你预设的"罪魁祸首"。

💡#3

@usr_bin_roygbiv
https://x.com/usr_bin_roygbiv/status/2069872707865387488
一个真·极端的现实 loop：他自托管一个约 600 万行的代码库，做法是让 5.5 把一切塞进单一 workspace 的一个 agents.md，按 TDD 拆成微服务、每个服务独立 repo 和流水线，再在 git worktree 上递归派生子 agent——由模型自己决定需要多少个子 agent、agent 树要递归多深。任何重数据或重代码路径都被分配一个 Prometheus/Postgres 指标，然后用 /goal 或 /autoresearch 去针对性优化。他用 Gemini 做探索、让它写交给 5.5 的交接 prompt，声称可以用一个 prompt 重构、测试、部署整个代码库。他的判断是：瓶颈是你、是算力、是 devloop 的时间——不是模型。

💡#4

@xwang_lk
https://x.com/xwang_lk/status/2069851837428335070
一个认真的研究观点：auto-research 本质是一个搜索问题，而不是单条轨迹的推理问题。科学家不只是解一道题——他们提出假设、设计实验、解读失败、更新信念、决定下一步往哪探，核心挑战是高效地在这个搜索空间里导航。他的 ARTS 框架引入了"推理引导的树搜索"加测试时学习，让 agent 对搜索过程本身进行推理，一个微调过的 4B 模型在 MLGym 和 MLEBench 上达到了和前沿闭源研究 agent 相当的表现，而推理成本低得多。值得琢磨的判断是：自主研究的进步将来自更好的"推理驱动的搜索"，而不只是更大的模型。

💡#5

@Gyome1_
https://x.com/Gyome1_/status/2069693579891527773
两句关于 loop 的经典话放在一处。OpenClaw 背后的工程师 Peter Steinberger 发的一句话冲到了 650 万阅读："你不该再给编程 agent 写 prompt 了。你该设计那些去给你的 agent 写 prompt 的循环。"而 Karpathy 的 AutoResearch 在更大尺度上说了同一件事——一个 markdown prompt 两天跑了 700 个实验，挖出 20 个他自己永远不会手敲出来的优化。这个对比就是整场转变：一个工程师一次一个键地往前推进工作；另一个写了一次 markdown、描述清楚"做完"长什么样、启动一个循环，回来时拿到了一套通过的测试和一段自己从没敲过的提交历史。

💡#6

@Jeyxbt
https://x.com/Jeyxbt/status/2069603415362011171
那句不断定义这个题材的 Karpathy 名言："我觉得自己从 12 月起就没手敲过一行代码了。现在的游戏规则是把你自己从瓶颈里挪走。你安排好一次、按下开始，大量的事就替你发生了。"那个反复被引用的生动案例是——他让一个 auto-research 循环去调一个他亲手调了二十年的模型，一夜之间它找到了他错过的参数设置。大多数搭建者还是那个每次都要按回车的人，而这正是他指的瓶颈：Claude 加循环、加验证、加记忆。

💡#7

@0xMorlex
https://x.com/0xMorlex/status/2069803651896369621
一篇关于 Anthropic 那份 11 页 PDF《自进化代码 Agent》（靠可靠的自我验证）的干净方法论解读。核心转变：agent 不是写一次代码就停，而是自己造测试、跑这些测试、读真实工具反馈、迭代 20 多轮。每一轮有五个动作：生成、自测（它自己写测试而不是等人给）、验证（执行代码暴露失败和边界情况）、工具反馈（真实执行结果告诉它到底哪里坏了）、迭代。关键洞见是：单靠自我反思不可靠，自我验证只有建立在可执行测试和真实工具反馈之上才真正有力。ReVeal 在 20 轮之后还在持续改进，把 LiveCodeBench 准确率从 34.8% 提到了 38.7%。

💡#8

@ardchain
https://x.com/ardchain/status/2069688341524513085
Karpathy 开源那个本地循环的一个具体落地：一个 21 岁的人用一个 630 行的 Python 脚本搭了一个递归 AI 编码循环，他说每月净赚 14,200 美元。没有 agent 群、没有向量数据库、没有臃肿框架——只有客观反馈和一个 git 记忆。这个循环读他的编码目标、改一个脚本、跑本地测试、检查验证损失；变好就提交到 git，失败就让 git 回滚到上一个干净提交。真正的收获是架构而不是收入：你的 git 仓库就是 agent 的记忆，你只需要一个版本控制式的记忆加一个验证指标，就能造出自我改进的软件。

💡#9

@aisolram
https://x.com/aisolram/status/2069834628756607224
一段对 Anthropic"Loop Engineering"框架的精炼提炼：你不再给 agent 写 prompt，而是搭那个去给它写 prompt 的系统，循环是调度→发现→构建→验证→重复，永不停。agent 自己找活干，每个任务跑在隔离环境里，第二个 agent 默认第一个是错的，结果被写进磁盘而不是丢在上下文里忘掉。他拎出的最重要一课：一个 agent 审查自己的工作几乎总会批准自己——所以杠杆最高的组件不是那个"构建者"，而是那个能说"不"的东西。这恰恰是大多数人会跳过的部分。

💡#10

@0xwhrrari
https://x.com/0xwhrrari/status/2069783460760191070
一场正在流传的 Anthropic workshop 里的说法："我们 30% 以上的代码已经是循环写的了。这就是我们出货这么快的原因。"这场 40 分钟的拆解覆盖了整套栈——agent loop、harness、记忆、子 agent——这是迄今最清晰的信号：循环模式不是边角实验，而是一家前沿实验室内部的默认做法。不管你怎么看包在外面的那层网红包装，底层那个论断（相当一部分生产代码现在是经由 harness 级循环、而不是手写 prompt 流出来的）正是定义 2026 下半年的趋势。

💡#11

@cloudinary
https://x.com/cloudinary/status/2069843052839969147
一个难得诚实、把失败也摆出来的 loop 案例。他们用 Claude Code + Cloudinary MCP 搭了一个 agent 循环来把图片体积压 20%。v1 号称平均省了约 68%——但那只是估算。于是他们加了一个 eval 步骤，对比"实测 vs 估算"的节省并给出置信度，结果实际值在两个方向上偏了 5 到 31 个百分点。这正是"把循环建立在真实验证之上"的全部教训：没有那个测量步骤，agent 自信满满的自我报告能差出三分之一。

💡#12

@rewind02
https://x.com/rewind02/status/2069791285116899501
VILA Lab 和伦敦大学学院的独立研究者发布了一份 46 页的逆向工程研究，分析 Claude Code 完整的 TypeScript 源码（v2.1.88），其中 Hooks 那一章最亮眼：拦截→决定→改写→继续。整个 agent 生命周期里会触发 27 个不同的 hook 事件，但只有 5 个在权限流里、能在工具调用执行前拒绝/询问/批准；PreToolUse hook 能即时改写工具输入，PostToolUse hook 能在执行后注入上下文，还有四类 hook（shell、LLM prompt、HTTP、完整的 agentic 验证器）让第三方在默认零上下文成本下接入任意逻辑。作为一张"可扩展性到底接在 agent loop 哪里"的地图，这是目前最详细的公开拆解。

💡#13

@RDarrylR
https://x.com/RDarrylR/status/2069607804898259336
一篇真正的工程文章，把"电子表格仪式"——有人在 Slack 里贴个文件、你滚动看 40 列、在别处跑个查询、再把结果复制回来——换成了把 CSV 或 XLSX 丢进聊天、用大白话提问。这套构建涵盖了用 Apache Arrow 把文件序列化成 Parquet、一个按需构建 DuckDB 的 TTL 缓存、以及一个先用简单启发式、不行再回退到 LLM 的查询分类器。循环的部分是：带自修复的 text-to-SQL 加一个无状态的 agent 循环，全部同时通过 HTTP 和 MCP 暴露，所以同一套逻辑在 Claude Desktop 里也能用。

💡#14

@ScottyBeamIO
https://x.com/ScottyBeamIO/status/2069721865711481095
一个把"自我改进循环"这个说法落到实处的具体迁移故事。他在 OpenClaw 上做出了一个 3.6 万美元的 AI agent 生意，然后把全部 13 个 agent 迁到了 Hermes，原因有三。第一是自我改进循环：Hermes 的 agent 在每次任务后记下什么有效、自己构建技能，而他原来的配置除非手动更新，否则第 90 天和第 1 天跑得一模一样。第二是记忆架构——一个 agent 知道的一切都放在一个可读的地方，排查异常行为只要几分钟，而不用在散落的文件里翻找。第三是稳定性：每次 OpenClaw 更新都有 20-30 分钟的修复税，而一次悄无声息的更新在夜里搞坏一个 agent，是最昂贵的 bug。

💡#15

@TheUltronAi
https://x.com/TheUltronAi/status/2069763225940553978
他发现了一个只有两个文件的 GitHub repo（一个 README、一张架构图，435 个 star），干了件荒唐的事：把里面的 prompt 粘进 Claude Code、Codex、Cursor 或任何编码 agent，它就从零给你搭一个自我改进的 agentic 系统——能做软件工程、研究、数据分析、浏览器自动化、跨多月的项目，每次任务后还更锋利。作者研究了 50 多种生产级 agent 架构，把经验压缩进一段粘贴：LangGraph 做持久化执行、Letta 和 Mem0 做记忆、Temporal 和 Inngest 做长任务工作流、DSPy 把 prompt 改进当成程序优化、Composio 和 MCP 接工具。你不是安装一个框架——是 agent 围着自己把框架搭起来。

💡#16

@itsemmal75
https://x.com/itsemmal75/status/2069860118163038482
一个尖锐的观点，指向所有 loop 狂热底下缺失的那一层：验证基础设施。随着 Claude Tag 进了 Slack，好的输出看起来像把思考外包，坏的输出又坐实了监控恐惧——没有审计轨迹，这是个无解的框。成本数字很扎心：4 个 agent 的循环 11 天烧掉 7000 美元，Claude Code 递归 5 小时烧掉 6000 到 5 万美元，而认证和审计层至今没人建。他指出一个"生产安全的 agent 循环"模式：带熔断器、只追加的账本、可审查界面，把决策 agent 和"措辞作者"分开，记录的是问责而不只是批准。AI 队友在需要更多上下文之前，先需要信任护栏。

💡#17

@cwolferesearch
https://x.com/cwolferesearch/status/2069904934674506009
一篇真正有用的第一性原理拆解，讲清楚 agent 到底是什么：就是一个跑在 agentic 循环里的 LLM，有四个组件——LLM 主干、指令、工具、环境。给一个初始规格，它们就在循环里跑：LLM 生成输出、执行工具调用、吸收环境反馈、再重复，每一步检查终止条件（最大步数、测试通过、或一个终止 token）。他还讲了工具如何在 token 流里被表示成特殊标记、环境如何是有状态的并被工具调用改变、以及那些快速演进的 harness 附加件——长任务的上下文压缩、以及作为环境另一部分、能跨会话保留的记忆。这正是当下 loop 讨论急需的、把概念落地的帖子。

💡#18

@filligerr
https://x.com/filligerr/status/2069603073924767817
一个脚踏实地的实践者，对自我改进多 agent 系统的一记现实警钟。他的观点是：当前前沿能用，但他只是更快地开几个对话来 prompt、并保持环境稳定——而他撞到的最糟问题是上下文腐烂。你想要能从错误中学习的自我改进 agent，但你仍然得监控这个系统学到了什么、确保它不会得出错误结论，因为 Opus 4.8 和 GPT 5.4/5.5 在独自维护复杂系统的上下文这件事上都不够好。"它一切完美，直到不完美为止——但'迟早会出问题'这个事实本身就让整个系统不可靠。"他的解法是通道隔离：干净的对话分隔，才是今天让这些工具能用的关键。

💡#19

@EnterMirari
https://x.com/EnterMirari/status/2069695750880039273
loop 讨论里最尖锐的一记警示：一个能重写自身代码的自我改进多 agent 系统，是唯一真正能扩展到"数周级目标"和"自动派生劳动力"、而又不让人类变成瓶颈的架构——但"改进"本身就是一个损失函数。如果给那次重写打分的裁判稍微错了，系统不会失败,它会更快地优化错误的东西。所以我们造的不是队友，而是有权改写自己工作说明书的队友，真正的终局是"agent 交付结果，而且我们能在它被部署之前证明这次重写是个好主意"。这个"可证明性"才是没人在谈的那部分。

💡#20

@RalphLabsAI
https://x.com/RalphLabsAI/status/2069760418156097818
一个新颖的"autoresearch 即竞赛"项目：在 Ralph 上，AI/ML 研究者在固定的代理算力预算下（约 1 亿参数模型、FineWeb-Edu 数据）修补一份共享的 LLM 训练配方，在 Intel TDX + NVIDIA-CC 飞地里运行，并交出一个开放的证明包。在留出集的 bits-per-byte 上干净利落地、且无 benchmark 回退地击败当前最佳配方——那个在位的"king"——你的就成为新王，赚取产出并喂给下一代 Ralph 模型。这是把 autoresearch 变成一个可验证、开放、"打擂台"式循环的具体尝试，其中的改进会复利式地汇入模型本身。

💡#21

@Ruemic
https://x.com/Ruemic/status/2069620523131392389
一个不大但货真价实的开源贡献：他在做一个开放的 Agentic Harness 研发日志，已经开始有点样子了，还在一夜之间给 heypi（hunvreus 的 Pi 助手）加上了 autoresearch，效果不错。他邀请大家贡献，征集值得收录的 harness 配置。这正是 autoresearch 领域更需要的那种安静的社区基础设施——一份共享的、不断增长的"不同 harness 各自怎么跑循环"的目录。

💡#22

@kavindpadi
https://x.com/kavindpadi/status/2069636470810488909
开源权重这边一个不大但说明问题的数据点：他让 GLM 5.2 跑了一些任务的 autoresearch 循环，效果不错。就一句话，但它落在一个真实趋势里——人们不再把 autoresearch 循环只留给前沿闭源模型；一个便宜的开源权重模型现在已经够好，能在真实任务上驱动"迭代-测量-保留"的循环。

💡#23

@Fortune_VY
https://x.com/Fortune_VY/status/2069806510075769336
一个真正有用的循环设计洞见：好的轨迹分析对自主 agent 的改进至关重要，但在 auto-research 这类自动化业务工作流里有一个缺失的环——来自客户端 agent 本身的主动反馈。别只是被动地看轨迹；去问下游 agent 什么失败了、缺了什么、什么会有帮助，然后把它做成一个 MCP 方法、把循环闭上。它把验证从"看日志"重构成了"审问消费者"，这对自我改进来说是一种有意义地不同、也更丰富的信号。

💡#24

@tcballard
https://x.com/tcballard/status/2069833944489423359
一个认真的 v0.0.1 原型：Lore Proofkeeper，给 Lore 家族做自主验证。思路是把"证明"——一个稳定的测试加它可重放的轨迹——保存下来，于是 agent 的工作是靠读 pull request 里已提交的测试和轨迹来验证，而不是靠本地跑一遍。完整的驱动→编译→保真度→运行管线端到端打通：一个自带模型的 agent 循环观察页面、决定下一步动作、通过 Recorder 驱动产品，保真度门只有在 N 次重跑全绿后才接受一个测试。然后它把验证链接作为人工审查的 PR 提出来，绝不直接提交。这是对"谁来验证循环的输出"一个具体的回答，而且是作为真实的、模型无关的基础设施造出来的。

💡#25

@nullhypeai
https://x.com/nullhypeai/status/2069849033896595659
一段对 Anthropic 那个循环（调度、发现、构建、验证、重复）干脆利落的经济学解读：五步里有四步即将变免费。调度、发现、构建都是"生成"，随着模型更便宜、更擅长写和跑自己的代码，这些成本会向 token 价格靠拢——一次完整改动在循环里已经只要个位数美元。验证是那个不会被商品化的步骤：那些决定"机器写的改动能否安全合并"的测试、经验性检查、权限范围、风险面，都是公司特有的、造起来很贵、而且会复利累积。所有人租同一个前沿模型、跑同一个循环；赢的那家公司，是其验证步骤能以机器速度合并、又不被攻破的那家。模型是输入，验证器才是护城河。

📡 生态产品雷达

生态产品雷达

Pi / pi-autoresearch — 大家做真正 autoresearch 循环时反复点名的 harness，从 LCP 性能优化到 Shopify 开发者在 Pi 上的循环。
Claude Code — 大多数循环里那个默认被包住的编码 agent，如今连它的 27 个 hook 事件都被逆向出来了。
Hermes / OpenClaw — 自托管的 agent 层，"自我改进循环"这个卖点是大家为之切换的差异点。
MCP — 循环伸向外部世界的方式：Cloudinary 图片优化、聊天里查 DuckDB、客户端 agent 的主动反馈。
CLAUDE.md — 仍然是"闭合循环"这类建议里居于中心的那个引导文件。
GLM 5.2 — 大家现在塞进 autoresearch 和 agentic 循环里、连跑 10 多小时的开源权重模型。

← 上一篇

超级用户日报: 2026年6月26日

灵感雷达: 2026年6月26日

← 返回所有文章

加载中...

Loop 日报: 2026年6月26日

相关文章

评论