Loop 日报: 2026年6月29日
今天最扎眼的循环故事,根本不是关于编码 agent 的。人们把 autoresearch 循环跑在天气模型、ODE/PDE 求解器和本地 LLM 优化上——实验在 Mac mini 上彻夜运转,做验证时你能听见风扇在响。更深的讨论也成熟了:运行循环和学习循环不是一回事,而今天最聪明的帖子,讲的是经验存在哪里——是 harness,不是权重。下面是真正在跑的东西。
#1
@ggkhzhao
https://x.com/ggkhzhao/status/2070963083778937018
一个团队把 autoresearch 循环对准了真实的天气预报,问的是:一个自动研究循环,能不能通过对一个真实的天气动力学内核做物理知情的改动来改进它。最妙的是他们的实话——本来没指望什么,但早期结果惊喜到值得分享。这是 autoresearch 跳出"time to GPT-2"基准、伸进硬核科学计算的一刻——在这种领域里,一个可测量的改进是真正的成果,而不是演示。
https://x.com/ggkhzhao/status/2070963083778937018
一个团队把 autoresearch 循环对准了真实的天气预报,问的是:一个自动研究循环,能不能通过对一个真实的天气动力学内核做物理知情的改动来改进它。最妙的是他们的实话——本来没指望什么,但早期结果惊喜到值得分享。这是 autoresearch 跳出"time to GPT-2"基准、伸进硬核科学计算的一刻——在这种领域里,一个可测量的改进是真正的成果,而不是演示。
#2
@zhaoran_wang
https://x.com/zhaoran_wang/status/2070965528978457030
一句分量很足的话:"autoresearch 让 ODE/PDE 重新伟大,不用神经那部分——没有反向传播,只有进化。"它指向和天气那条一样的转向:autoresearch 循环是对科学代码的进化式搜索,而不是微调练习。没有梯度下降、没有神经代理,就是一个 agent 提出、运行、留下可测量地变好的那些。提醒一句:循环是通用优化器,不是编码花招。
https://x.com/zhaoran_wang/status/2070965528978457030
一句分量很足的话:"autoresearch 让 ODE/PDE 重新伟大,不用神经那部分——没有反向传播,只有进化。"它指向和天气那条一样的转向:autoresearch 循环是对科学代码的进化式搜索,而不是微调练习。没有梯度下降、没有神经代理,就是一个 agent 提出、运行、留下可测量地变好的那些。提醒一句:循环是通用优化器,不是编码花招。
#3
@stretchcloud
https://x.com/stretchcloud/status/2070965390084030743
对 Karpathy 工作方式转变的清晰复述:比例从 80% 写代码翻成了 80% 委派,而他为展示这个原理做的工具 AutoResearch,两天跑了 700 个实验,全程无人在键盘前。agent 改代码、试想法、从失败里学,把"time to GPT-2"基准从 2.02 小时压到 1.80。落地的判断是:真正持久的技能是规格设计、diff 审查、eval 构建——是判断的活,不是敲键盘的活。
https://x.com/stretchcloud/status/2070965390084030743
对 Karpathy 工作方式转变的清晰复述:比例从 80% 写代码翻成了 80% 委派,而他为展示这个原理做的工具 AutoResearch,两天跑了 700 个实验,全程无人在键盘前。agent 改代码、试想法、从失败里学,把"time to GPT-2"基准从 2.02 小时压到 1.80。落地的判断是:真正持久的技能是规格设计、diff 审查、eval 构建——是判断的活,不是敲键盘的活。
#4
@hasantoxr
https://x.com/hasantoxr/status/2070862397997535396
值得注意的 autoresearch 细节:把任意论文变成一张图。装上 CLI,给你的 agent 一个 arxiv id,它就解析好环境、跑一个最小复现、把结果铺成一张图——PDF 里没讲清的地方,它会来问你,而不是瞎猜。从那儿起,你把 autoresearch 指向任意一个节点继续往下:把某个实验再推一步,或者去跑作者放弃的那个方向,每次运行落成一个新节点,背后挂着托管算力。从一篇论文扇出一百个实验,你这边不用搭任何基础设施。
https://x.com/hasantoxr/status/2070862397997535396
值得注意的 autoresearch 细节:把任意论文变成一张图。装上 CLI,给你的 agent 一个 arxiv id,它就解析好环境、跑一个最小复现、把结果铺成一张图——PDF 里没讲清的地方,它会来问你,而不是瞎猜。从那儿起,你把 autoresearch 指向任意一个节点继续往下:把某个实验再推一步,或者去跑作者放弃的那个方向,每次运行落成一个新节点,背后挂着托管算力。从一篇论文扇出一百个实验,你这边不用搭任何基础设施。
#5
@seanphan
https://x.com/seanphan/status/2071019963025072433
关于这些循环到底能跑多久的一个具体数据:配上 /goal 加 autoresearch 和可验证的输出,他的任务能无人值守跑上好几个小时,最长的单个任务大约 30 小时。这才是自主循环的真正考验——不是它能不能做一步,而是你能不能让它跑一整夜(还不止),回来时拿到有用的东西。他说这被严重低估,从这个证据看,他是对的。
https://x.com/seanphan/status/2071019963025072433
关于这些循环到底能跑多久的一个具体数据:配上 /goal 加 autoresearch 和可验证的输出,他的任务能无人值守跑上好几个小时,最长的单个任务大约 30 小时。这才是自主循环的真正考验——不是它能不能做一步,而是你能不能让它跑一整夜(还不止),回来时拿到有用的东西。他说这被严重低估,从这个证据看,他是对的。
#6
@kavindpadi
https://x.com/kavindpadi/status/2070919668433584190
今天最有共鸣的 autoresearch 帖子:后悔买了 Mac mini,因为 autoresearch 循环正忙着找本地 LLM 优化,明显更想要一台 Mac Studio 或者 DGX Spark。这是个小小的窗口,让你看到 autoresearch 是个真实、吃资源的工作负载,跑在消费级硬件上,每跑一轮验证风扇都在响。对这个人来说,循环不是思想实验,而是一份正在撑爆他机器的工作。
https://x.com/kavindpadi/status/2070919668433584190
今天最有共鸣的 autoresearch 帖子:后悔买了 Mac mini,因为 autoresearch 循环正忙着找本地 LLM 优化,明显更想要一台 Mac Studio 或者 DGX Spark。这是个小小的窗口,让你看到 autoresearch 是个真实、吃资源的工作负载,跑在消费级硬件上,每跑一轮验证风扇都在响。对这个人来说,循环不是思想实验,而是一份正在撑爆他机器的工作。
#7
@christophcsmith
https://x.com/christophcsmith/status/2070946305816367598
一个真正新颖的个人应用:他想把自己真正在意的产出量化下来——比如"健康""影响力""维系住的关系"——这样他和机器就能一起 autoresearch 怎么把它们最大化。这是把 autoresearch 对准的不是基准、也不是代码库,而是一种人生。模糊的指标是难点,但直觉很有意思:只要你能把一个目标变得可测量,你就能给它套上一个循环。
https://x.com/christophcsmith/status/2070946305816367598
一个真正新颖的个人应用:他想把自己真正在意的产出量化下来——比如"健康""影响力""维系住的关系"——这样他和机器就能一起 autoresearch 怎么把它们最大化。这是把 autoresearch 对准的不是基准、也不是代码库,而是一种人生。模糊的指标是难点,但直觉很有意思:只要你能把一个目标变得可测量,你就能给它套上一个循环。
#8
@Veltrxai
https://x.com/Veltrxai/status/2070980138070900797
一个真实的 autoresearch 功能,做在了免费的 Claude Code 插件(Claude Obsidian)里:对任意主题跑 /autoresearch,它分轮工作——第一轮读 9 个来源、第二轮连接实体、第三轮写页面,12 个新页面,全程不用动手。它建在纯 markdown 记忆之上(每个会话加载的 hot.md、一个索引、不断增长的 wiki 页面),并称混合检索把准确率提了 32%。这就是把 autoresearch 循环直接接进个人知识库——vault 在研究它自己。
https://x.com/Veltrxai/status/2070980138070900797
一个真实的 autoresearch 功能,做在了免费的 Claude Code 插件(Claude Obsidian)里:对任意主题跑 /autoresearch,它分轮工作——第一轮读 9 个来源、第二轮连接实体、第三轮写页面,12 个新页面,全程不用动手。它建在纯 markdown 记忆之上(每个会话加载的 hot.md、一个索引、不断增长的 wiki 页面),并称混合检索把准确率提了 32%。这就是把 autoresearch 循环直接接进个人知识库——vault 在研究它自己。
#9
@Gordey0072
https://x.com/Gordey0072/status/2070843990883160335
循环里零人类:一个 Hermes 编排器管理着一整支 agent 团队——研究员到架构师到开发者到测试员——通过原生看板协调,配上 Karpathy 式的 auto-research 循环加 DSPy 做自我改进。它几乎没什么曝光,但却是今天对"自我改进多 agent 流水线"更具体的描述之一:把编排层、显式研究循环和 prompt 优化框架,组合成了一个运行中的系统。
https://x.com/Gordey0072/status/2070843990883160335
循环里零人类:一个 Hermes 编排器管理着一整支 agent 团队——研究员到架构师到开发者到测试员——通过原生看板协调,配上 Karpathy 式的 auto-research 循环加 DSPy 做自我改进。它几乎没什么曝光,但却是今天对"自我改进多 agent 流水线"更具体的描述之一:把编排层、显式研究循环和 prompt 优化框架,组合成了一个运行中的系统。
#10
@_vmlops
https://x.com/_vmlops/status/2070721644767957275
Santander 开源了它的整个 AI 实验室——14 个生产级、Apache-2.0 工具——这里最关键的是 ralph:一个每次迭代都用全新会话来跑 AI 编码 CLI 的循环,agentic loop 工程,由一家千亿美元的银行发布。其余的(合成欺诈图生成器、LLM 对齐脚手架、高风险决策的机械治理框架)也值得注意,但 ralph 证明了"全新会话循环"如今是连严肃机构都在发布的范式,不只是独立开发者的玩法。
https://x.com/_vmlops/status/2070721644767957275
Santander 开源了它的整个 AI 实验室——14 个生产级、Apache-2.0 工具——这里最关键的是 ralph:一个每次迭代都用全新会话来跑 AI 编码 CLI 的循环,agentic loop 工程,由一家千亿美元的银行发布。其余的(合成欺诈图生成器、LLM 对齐脚手架、高风险决策的机械治理框架)也值得注意,但 ralph 证明了"全新会话循环"如今是连严肃机构都在发布的范式,不只是独立开发者的玩法。
#11
@OkhayIea
https://x.com/OkhayIea/status/2070904599788273696
今天最点醒人的一帖:运行循环和学习循环不是一回事。在单个任务内,agent 循环(行动、观察、决定、重复)只需要成功一次;而学习是跨许多窗口地积累经验。他把部署后的 agent 形式化为基础模型加一个可变的 harness,而 harness 正是你能在部署的时间尺度上检查和修改的部分——比改权重便宜得多。循环跑在 harness 上,但 harness 决定循环能留下什么。
https://x.com/OkhayIea/status/2070904599788273696
今天最点醒人的一帖:运行循环和学习循环不是一回事。在单个任务内,agent 循环(行动、观察、决定、重复)只需要成功一次;而学习是跨许多窗口地积累经验。他把部署后的 agent 形式化为基础模型加一个可变的 harness,而 harness 正是你能在部署的时间尺度上检查和修改的部分——比改权重便宜得多。循环跑在 harness 上,但 harness 决定循环能留下什么。
#12
@phosphenq
https://x.com/phosphenq/status/2070967048193159344
一篇 50 页的论文把大家心照不宣的话说出来了:agent 循环是坏的,而所有人还在它上面继续建。它无限重试、自己改写自己的计划、还藏起自己为什么崩。它给的修法是:丢掉循环,跑一个你能看见、能控制、能真正停下来的结构化图。你买不买这个结论另说,但这是今天流传的对"朴素 while 循环 agent"最犀利的批评,而它要的那种"可检查、可停止的执行",正是整个生产级 agent 圈都在喊的诉求。
https://x.com/phosphenq/status/2070967048193159344
一篇 50 页的论文把大家心照不宣的话说出来了:agent 循环是坏的,而所有人还在它上面继续建。它无限重试、自己改写自己的计划、还藏起自己为什么崩。它给的修法是:丢掉循环,跑一个你能看见、能控制、能真正停下来的结构化图。你买不买这个结论另说,但这是今天流传的对"朴素 while 循环 agent"最犀利的批评,而它要的那种"可检查、可停止的执行",正是整个生产级 agent 圈都在喊的诉求。
#13
@thisdudelikesAI
https://x.com/thisdudelikesAI/status/2070790383429394935
一个具体、可搭的循环:在 Claude 里做一个"agent loop",它会研究、起草、并自我批评,把同样三步反复跑到输出真的好为止,而不只是做完。他的对比很有用——大多数人把 Claude 当自动售货机用(一个 prompt、一个答案、走人),而真正的解锁是去搭那个循环。这是最简单的自我改进循环,也正是非工程师能立起来的那种东西。
https://x.com/thisdudelikesAI/status/2070790383429394935
一个具体、可搭的循环:在 Claude 里做一个"agent loop",它会研究、起草、并自我批评,把同样三步反复跑到输出真的好为止,而不只是做完。他的对比很有用——大多数人把 Claude 当自动售货机用(一个 prompt、一个答案、走人),而真正的解锁是去搭那个循环。这是最简单的自我改进循环,也正是非工程师能立起来的那种东西。
#14
@tonysimons_
https://x.com/tonysimons_/status/2070967383284445226
对 Hermes 新版 MoA 2.0(Mixture of Agents)的上手测试:它不是押注于一个大脑,而是一组顾问——参考模型先思考,一个聚合器再综合,整件事在正常的 agent 循环里跑,不用胶水代码或自定义路由。他花了一天把它跑过真实工作流,省得你自己试,报告说默认预设的得分明显高于单个顶级模型。要点是:集成综合现在活在循环内部,而不是外面拼上去。
https://x.com/tonysimons_/status/2070967383284445226
对 Hermes 新版 MoA 2.0(Mixture of Agents)的上手测试:它不是押注于一个大脑,而是一组顾问——参考模型先思考,一个聚合器再综合,整件事在正常的 agent 循环里跑,不用胶水代码或自定义路由。他花了一天把它跑过真实工作流,省得你自己试,报告说默认预设的得分明显高于单个顶级模型。要点是:集成综合现在活在循环内部,而不是外面拼上去。
#15
@stretchcloud
https://x.com/stretchcloud/status/2070774129825923501
对 Hermes 自我改进循环的细读——这部分不同于它的多模型综合:agent 从经验中创建技能、在使用中修订它们、并跨会话维持一个持久的用户模型,全部本地、零遥测。他把它放在 LM Studio、mem0、Ell 和 DSPy 之间对照,并认为 Hermes 想做完整运行时而不是某个组件。诚实的警告也在:基准需要外部验证;但那个机制——经验编译成可复用技能——正是本周反复出现的主题。
https://x.com/stretchcloud/status/2070774129825923501
对 Hermes 自我改进循环的细读——这部分不同于它的多模型综合:agent 从经验中创建技能、在使用中修订它们、并跨会话维持一个持久的用户模型,全部本地、零遥测。他把它放在 LM Studio、mem0、Ell 和 DSPy 之间对照,并认为 Hermes 想做完整运行时而不是某个组件。诚实的警告也在:基准需要外部验证;但那个机制——经验编译成可复用技能——正是本周反复出现的主题。
#16
@ManuAGI01
https://x.com/ManuAGI01/status/2070723161893851441
MiMoCode 里一套具体的自我改进功能:/dream 从会话轨迹里提取知识,/distill 找出你重复的工作流、打包成可复用技能。再配上跨会话记忆(永久的 MEMORY.md、自动检查点快照、由 SQLite FTS5 支撑的每任务进度日志),你就得到一个把自己历史变成程序性技能、而不是每次冷启动的 agent。这正是 OkhayIea 说的"学习循环",被实现成了两个斜杠命令。
https://x.com/ManuAGI01/status/2070723161893851441
MiMoCode 里一套具体的自我改进功能:/dream 从会话轨迹里提取知识,/distill 找出你重复的工作流、打包成可复用技能。再配上跨会话记忆(永久的 MEMORY.md、自动检查点快照、由 SQLite FTS5 支撑的每任务进度日志),你就得到一个把自己历史变成程序性技能、而不是每次冷启动的 agent。这正是 OkhayIea 说的"学习循环",被实现成了两个斜杠命令。
#17
@Praveen_G07
https://x.com/Praveen_G07/status/2070921224960856312
对 ACE 论文(Agentic Context Engineering)的干净总结:改进一个 AI agent,靠的是进化它的上下文,而不是它的模型权重。它跑一个简单循环——生成、反思、策展——agent 解一个任务、分析什么有效什么失败、再更新它的上下文知识,于是"剧本"随时间越来越丰富,而不是遗忘。这是所有"从经验里长技能"帖子背后的学术骨架,也提出了那个对的开放问题:进化上下文能否扩展到数月甚至数年积累的知识?
https://x.com/Praveen_G07/status/2070921224960856312
对 ACE 论文(Agentic Context Engineering)的干净总结:改进一个 AI agent,靠的是进化它的上下文,而不是它的模型权重。它跑一个简单循环——生成、反思、策展——agent 解一个任务、分析什么有效什么失败、再更新它的上下文知识,于是"剧本"随时间越来越丰富,而不是遗忘。这是所有"从经验里长技能"帖子背后的学术骨架,也提出了那个对的开放问题:进化上下文能否扩展到数月甚至数年积累的知识?
#18
@DanielSmithDev
https://x.com/DanielSmithDev/status/2070870356605518324
一个真实的构建:把 OpenClaw、Hermes 和 Goose 作为可选 agent 打包进 ClawQL,并把官方的 Ouroboros 库改造成一个多 agent 循环。它是一篇进行中的工程帖,而不是一串断言——这恰恰是它值得标记的原因:真有人在把多个 harness 接到一个循环底下,还提到了一位协作者的帮助。Ouroboros(衔尾蛇)这个名字,用在一个把自己输出再喂回去的循环上,恰如其分。
https://x.com/DanielSmithDev/status/2070870356605518324
一个真实的构建:把 OpenClaw、Hermes 和 Goose 作为可选 agent 打包进 ClawQL,并把官方的 Ouroboros 库改造成一个多 agent 循环。它是一篇进行中的工程帖,而不是一串断言——这恰恰是它值得标记的原因:真有人在把多个 harness 接到一个循环底下,还提到了一位协作者的帮助。Ouroboros(衔尾蛇)这个名字,用在一个把自己输出再喂回去的循环上,恰如其分。
#19
@EverymansAI
https://x.com/EverymansAI/status/2070969433301073961
一张有用的三方架构图:CORAL 对 Hermes Agent 对 OpenClaw,按抽象层排。CORAL 是进化/自主层(agent 生成尝试、反思、固化技能、协同进化),Hermes 是 agent 运行时(结构化循环、工具、重试、错误恢复),OpenClaw 是模型访问层(统一 API、认证、路由)。他的关键结论是:它们互补,不是竞争——CORAL 可以跑在 Hermes 上,而 Hermes 可以通过 OpenClaw 调模型。在一个嘈杂的生态里,这是个让人清醒的框架。
https://x.com/EverymansAI/status/2070969433301073961
一张有用的三方架构图:CORAL 对 Hermes Agent 对 OpenClaw,按抽象层排。CORAL 是进化/自主层(agent 生成尝试、反思、固化技能、协同进化),Hermes 是 agent 运行时(结构化循环、工具、重试、错误恢复),OpenClaw 是模型访问层(统一 API、认证、路由)。他的关键结论是:它们互补,不是竞争——CORAL 可以跑在 Hermes 上,而 Hermes 可以通过 OpenClaw 调模型。在一个嘈杂的生态里,这是个让人清醒的框架。
#20
@AnotherCodingX
https://x.com/AnotherCodingX/status/2070879375579586648
长跑循环里不光彩却要命的经济账:LangChain 的 Deep Agents prompt 缓存研究表明,一旦 agent 做更长的活,每一轮都要把大量旧上下文(系统 prompt、工具描述、技能、历史)拖着过一遍模型。他们的做法是在支持的地方设显式缓存断点,并把 prompt 结构化,让正常的 agent 行为不会炸掉缓存——而"缓存爆炸半径"那个细节是精华:靠前的一处改动,可能让它之后的一切都丢掉缓存。报告结果:在真实 agent 轨迹上 token 成本降低 49-80%。
https://x.com/AnotherCodingX/status/2070879375579586648
长跑循环里不光彩却要命的经济账:LangChain 的 Deep Agents prompt 缓存研究表明,一旦 agent 做更长的活,每一轮都要把大量旧上下文(系统 prompt、工具描述、技能、历史)拖着过一遍模型。他们的做法是在支持的地方设显式缓存断点,并把 prompt 结构化,让正常的 agent 行为不会炸掉缓存——而"缓存爆炸半径"那个细节是精华:靠前的一处改动,可能让它之后的一切都丢掉缓存。报告结果:在真实 agent 轨迹上 token 成本降低 49-80%。
📡 生态产品雷达
生态产品雷达
今天的循环帖子里被提到 3 次以上的工具和框架。
Hermes(Nous Research)— 大家在它上面搭循环的运行时,从 MoA 2.0 集成、到自我改进的技能创建、再到多 agent 编排。
autoresearch — 今天的主线,被用在天气模型、ODE/PDE 求解器、本地 LLM 调优和个人生活指标上。
Claude Code — 手搓"研究/起草/批评"循环的默认底座,也是 Claude Obsidian /autoresearch 插件的载体。
DSPy — 多 agent 循环里"自我改进"那一半反复被点名的 prompt 优化框架。
Obsidian — 循环把研究写进去、又从中读上下文的 markdown vault,是学习循环底下的持久记忆层。
MoA(Mixture of Agents)— "集成在循环内"的范式,如今作为虚拟模型内置进 Hermes。
Ralph — "每次迭代用全新会话"的 agentic loop 范式,现在被 Santander 开源。
LangChain Deep Agents — 大家在长循环里做上下文管理和 prompt 缓存时指向的"开箱即用" harness。
今天的循环帖子里被提到 3 次以上的工具和框架。
Hermes(Nous Research)— 大家在它上面搭循环的运行时,从 MoA 2.0 集成、到自我改进的技能创建、再到多 agent 编排。
autoresearch — 今天的主线,被用在天气模型、ODE/PDE 求解器、本地 LLM 调优和个人生活指标上。
Claude Code — 手搓"研究/起草/批评"循环的默认底座,也是 Claude Obsidian /autoresearch 插件的载体。
DSPy — 多 agent 循环里"自我改进"那一半反复被点名的 prompt 优化框架。
Obsidian — 循环把研究写进去、又从中读上下文的 markdown vault,是学习循环底下的持久记忆层。
MoA(Mixture of Agents)— "集成在循环内"的范式,如今作为虚拟模型内置进 Hermes。
Ralph — "每次迭代用全新会话"的 agentic loop 范式,现在被 Santander 开源。
LangChain Deep Agents — 大家在长循环里做上下文管理和 prompt 缓存时指向的"开箱即用" harness。
评论