2026年7月1日loop

Loop 日报: 2026年7月2日

这一轮真正的看点不是"agent 能跑循环"，而是循环终于便宜到可以一直挂着不管。Sonnet 5 把价格打下来之后，通宵交易机器人和常驻研究 agent 从烧钱黑洞变成了理所当然的选择，大家晒出的结果也印证了这点：四条 prompt 复现一篇论文、一个赚了五十万的交易循环、一个靠每轮自我纠错就跑赢人类的天气预报器。在满屏蹭热度的水贴底下，一套真正的方法论正在成形：agent 循环加验证器加记忆加调度。同时也有一群清醒的怀疑派在提醒大家：一个跑得飞快、却指向一个孱弱验证器的内循环，只是一种昂贵的烧 token 方式。

💡#1

@askalphaxiv
https://x.com/askalphaxiv/status/2072097922595029357
他们用自家的 AutoResearch 工具端到端复现了一篇论文（DiffusionBlocks），并发现结果对训练预算很敏感：在只跑到所需 epoch 25% 时还追不上基线，但把层数从 12 提到 24（这是原论文从没探索过的方向）后，仅用 25% 的 epoch 就反超了基线。整套实验全靠四条大白话 prompt 驱动完成。这是目前 autoresearch 真正做科研、而不是演示 demo 的最清晰案例。

💡#2

@antpalkin
https://x.com/antpalkin/status/2072083069339943277
一个身无分文的 23 岁年轻人在里斯本用 agent 循环搭了个交易机器人，跑了一个月因为 API 账单把钱全吃光只好关掉，等 Sonnet 5 把成本从每天约 4000 美元砍到不到 4 美元后又重新开了起来。同一个机器人，成本只剩零头，据说赚了 50 万美元。他的观点很犀利：循环本身一直是可行的，是模型让运行它变得付得起，而一个永远在跑的循环会留住有效的策略，每晚重写自己的规则。

💡#3

@heckmeier
https://x.com/heckmeier/status/2072001751947862074
他把 agent 循环接到了真实的物理世界：实时天气加摄像头数据加 11 年的历史观测，专门用来预测一个具体的本地现象（Maloja 山风）。目标是做一个能跑赢人类预报员、还能自己发现前人未记录的依赖关系的自我改进预报器，每一轮都由现实来纠正它。这是把循环闭合到物理世界、而不是闭合到某个 benchmark 的漂亮范例。

💡#4

@elliot_c_smith
https://x.com/elliot_c_smith/status/2072086311784333573
他做了个实验，把 Claude Code 扔到一个没有明确梯度的优化问题上，灵感明确来自 Karpathy 的 Autoresearch，但针对"现实代码大多信号嘈杂"这一事实做了改造。这是这套模式的诚实版本：没有干净的 loss 曲线，而是一个 agent 对着一个混乱的真实世界目标反复迭代。随着 autoresearch 从玩具问题走向嘈杂问题，这个方向值得关注。

💡#5

@iScienceLuvr
https://x.com/iScienceLuvr/status/2071886472844894381
他宣布正在做 Labless，一个面向 autoresearch 和 agentic research 的新平台，并公开征集反馈和合作方。有意思的信号不是这次安利本身，而是"autoresearch 平台"已经成了一个值得拿来命名创业公司的品类。Karpathy 那套模式底下的工具层，正在被真刀真枪地建起来。

💡#6

@0xProbabillity
https://x.com/0xProbabillity/status/2071965889298133357
一篇详尽拆解 Spotify agentic 工作流的工程文章，核心教训是：这事的关键不在 prompt。他们靠投资车队管理式的基础设施和标准化，把 PR 频率提升了 75%，搭了一个 Linux/macOS 验证循环，让跑在 Claude Agent SDK 上的 agent 写代码、触发构建、自己修错，循环到通过为止，然后又把测试自动化做到足够强，实现无人参与的自动合并。如今非工程师也能在两小时内把原型上架到内部 App Store。

💡#7

@jordiponsdotme
https://x.com/jordiponsdotme/status/2071938261258326079
他分享了自己写作用的那套 agent 循环：先起一份草稿，让一个 agent 以顶会 ML 审稿人的身份评审，再让第二个 agent 以科学作者的身份重写，然后反复走"评审—重写"这个循环，直到审稿人满意为止。这是个干净、可复现、内建质量门槛的双 agent 循环。验证器就是另一个扮演严苛批评者的 agent。

💡#8

@0xCodez
https://x.com/0xCodez/status/2071996078568701978
他拆解了如何给自我改进的 agent 构建记忆：程序性记忆（skill，即怎么行动）、语义性记忆（持久的事实和画像）、情景性记忆（带日期的事件和聊天历史）。他的框架是：记忆是任何 agent 循环的核心组成，而记忆加循环加 harness 加 evals，才是把一次性机器人变成自我改进系统的关键。这是对大多数人跳过的那块给出的一套具体心智模型。

💡#9

@cshekhar
https://x.com/cshekhar/status/2071878507483848748
他运营着一个内部 agent 部署平台，用 microVM 加 Kernel 7 做租户隔离，这样一个有漏洞的免费层应用就没法把爆炸半径波及到其他人，而驱动它的 agent 循环是开源的，对任何有风险的操作都内建了 human-in-the-loop 审批。这是"放手让 agent 跑循环"的成熟版：真隔离加真审批门。基础设施层面的讨论，正在追上能力层面。

💡#10

@GAXEN10
https://x.com/GAXEN10/status/2071980076401668365
他描述了如何用 Claude Code Dynamic Workflows 取代原来那套四 agent 的晨间流程（研究、写作、评审、发布，每一步之间还得手动复制粘贴）。一条命令就拉起一个 dashboard，实时显示每个阶段并行运行、消耗了多少 token、哪个子 agent 正在执行或校验，整个循环由 Claude 写成 .claude/workflows 文件夹里的一个 JavaScript 文件。三小时的盯梢变成了四分钟的配置，如今他一天跑六条工作流循环。

💡#11

@hedgineering
https://x.com/hedgineering/status/2071951901491376441
一期播客节目，拆解了对投资团队来说 agent 循环到底是什么，以及真正用起来是什么样子，从财报速览一路讲到点子生成。它的框架是：循环让分析师从被动敲 prompt 转向自主流水线，从而提升点子的产出速度。这是循环模式正落地到金融工作流、而不只是停留在写代码的具体证据。

💡#12

@thenightshipper
https://x.com/thenightshipper/status/2071997788347642005
他提出了一个被低估的观点：今年 agent 内循环大约快了 100 倍，而外部反馈循环（真实用户、真实市场）并没有变快，所以"该造什么"如今才是瓶颈，而不是"我能不能造出来"。大多数工程师精于内循环、拙于外循环，而这道鸿沟才是现在真正的能力。这是对"自主到底在哪里帮得上忙、在哪里帮不上"的清醒判断。

💡#13

@kingofknowwhere
https://x.com/kingofknowwhere/status/2071928945054994561
他做了个 MVP（纯 vibe-coded），一个能根据每次用户交互从 Telegram 自我更新的网站：每一次表单提交都会送给一个开发者 agent，变成一张由该 agent 处理的 Jira 工单，全程自主完成。每一次访问都是网站自我改进的机会。这是个粗糙但真实的闭环，用户行为直接喂进构建队列。

💡#14

@valhalla_dev
https://x.com/valhalla_dev/status/2072004864339505397
他在一次黑客松上做了 LAIN，即 Loki Agent Intelligence Network：agent 跑自我改进循环，在某一个领域里成长为天才级的专家，然后把研究卖给人类，还用 Stripe 的 Machine Payment Protocol 自主向其他 agent 购买研究。在 demo 里，一个 agent 报出一份报告的价格、收下一笔真实的 Stripe 付款，再付钱给第二个专家 agent 让它出一份关于 NVIDIA 经济学的子报告，最后把两份合并。这是一瞥有真金白银流动的自我改进 agent 市场。

💡#15

@arcprize
https://x.com/arcprize/status/2072069184146833674
他重点介绍了 Continual Harness，一个来自 Prime Intellect、跑在 ARC-AGI-3 上的高效自我改进 agent，这个 benchmark 极重的测试时学习逼着 agent 去构建一个关于规则和机制的内部世界模型，并随新证据到来不断更新。这里的自我改进是任务本身的硬性要求，而不是一句营销标签。是这一轮自我改进 agent 领域里更严谨的作品之一。

💡#16

@TeksCreate
https://x.com/TeksCreate/status/2071782195962806289
他详细审视了 Hermes Agent，这个从每一次会话中学习的自我改进 agent，star 数刚过 20.5 万。它的闭环学习会在完成复杂任务后自主创建 skill、在使用中自我改进这些 skill、持久化知识，并检索自己过往的对话，全部建立在"轨迹生成到压缩到训练反馈"的流水线之上。值得追踪的说法是：这类 agent 在工具调用上会随时间可测量地变强，而不是一直停留在静态的 prompt 工程机器人。

💡#17

@bsormagec
https://x.com/bsormagec/status/2072001373504151568
他对 Ornith-1.0 做了一次冷静的分析，这是个开源权重的编码模型，用一套自我改进 RL 框架训练，同时优化解题 rollout 和引导它们的 scaffold。他的关键提醒戳破了品牌话术：这里的"自我改进"是训练时的技巧（RL 生成的 harness），不是运行时的进化，所以你该买单的是"开源权重加工具链"这个故事，而不是营销。这是提醒大家要仔细读"自我改进"这类说法的一记有用警钟。

💡#18

@AndrewK404
https://x.com/AndrewK404/status/2072034692790927570
研究了几天 Claude Code、Codex、OpenHands、Hermes 和 LangGraph 之后，他确信整个行业已经收敛到同一套 Agent Runtime 架构：收集历史、发给模型，如果有工具调用就执行工具再回到第一步，否则就返回答案。整个循环就这么点东西。这是对"agent 在底层到底是什么"的一个干净、去魅的描述。

💡#19

@MaziyarPanahi
https://x.com/MaziyarPanahi/status/2071955191260151862
他在 Mac Studio 上通过 llama.cpp 本地运行 GLM-5.2，给它接了个浏览器，围绕 browser-use 搭了个 agent 循环。他让它去找一个 PII 模型，它自己在 Hugging Face 上搜索并挖出了 privacy-filter-nemotron，一个开源模型找出了另一个。他的原话是：AI 必须被拥有，而不是被租用。这是个具体的、全本地的 agent 循环，有真实的工具调用，且不依赖任何 API。

💡#20

@IhorSkiba
https://x.com/IhorSkiba/status/2071962711488184690
他报告了 53 小时、1520 个任务完成、零手打 prompt，并列出了循环的四级台阶，大多数人连第一级都爬不过：agent 循环（模型调用工具直到达成目标）、验证循环（一个打分器在输出交付前按 rubric 逐项评分）、事件驱动循环（由 cron 或 webhook 触发）、以及爬坡循环（agent 读自己的 trace，每晚重写自己的 prompt）。他的观点是：只有当敲键盘的不再是你，你才拿得到那种复利式的收益。

💡#21

@dipankarsarkar
https://x.com/dipankarsarkar/status/2071991327156220400
一个很棒的具体调试故事：他给一个 agent 循环做性能剖析，本以为慢在模型上，结果是每一轮对状态对象做的 deepcopy。换掉序列化路径后整体快了约 30 倍，全程压根没碰 agent 本身。这提醒我们：很多 agent 延迟并不住在硅片上，而是住在你自己的管道里，不在 LLM 那儿。

💡#22

@johniosifov
https://x.com/johniosifov/status/2072002479525380409
他拿 Cognition 的 Devin 报出的"自家代码库如今 89% 由其 agent 编写"当引子，接着分享自己的经历：跑了 109 次内容爆发（会话、PR、帖子、研究、战略），全靠一个 agent 循环驱动，没有一句内容是人写的。他的结论是：限制因素不是 AI 的能力，而是人愿不愿意定清楚目标、并把执行权交给 agent。没有人类摩擦的迭代速度，才是真正的解锁。

💡#23

@jerryjliu0
https://x.com/jerryjliu0/status/2072035931050426782
他把文档解析定位成必须活在 agent 循环内部的东西：当用户往 agent 里扔进 1000 份 PDF，你需要一趟极快的处理来先摸清这些文档，然后才好深入，这正是他们做 LiteParse 这个开源项目的原因，它专为在 agent 循环里运行、并在需要时路由到更深的 VLM 增强模式而设计。这提醒我们：真实的 agent 循环需要快而便宜的感知步骤，而不是只有一个大模型。解析正在成为循环基础设施。

💡#24

@HolmesosaurusRx
https://x.com/HolmesosaurusRx/status/2071812299309133946
今天最犀利的怀疑派：循环对简单的客观任务有效（跑 lint、修掉明显的问题、重跑一次、停），但在研究综述、产品判断、定价这类复杂工作上会变得危险，因为那里验证器孱弱，模型会自己造活、烧 token。他的替代方案是人类主导的编排：人定标准，agent 做一趟有边界的处理，agent 按明确标准自我验证，人来决定下一步。"没有编排的自主，只是一个精力无限、还刷着你信用卡的昂贵实习生。"

📡 生态产品雷达

生态产品雷达

Claude Code —— agent 循环和 Dynamic Workflows 的默认宿主，从 Spotify 的验证循环到一条命令搞定的通宵工作流农场（@0xProbabillity、@GAXEN10、@elliot_c_smith）。

Hermes Agent —— 这一轮的自我改进 agent 标杆，其闭环 skill 学习被当作值得照抄的架构反复引用（@TeksCreate、@AndrewK404、@valhalla_dev）。

Sonnet 5 —— 让常驻循环在经济上变得合理的那次价格变动，被反复归功为死掉的机器人重新开机的原因（@antpalkin）。

autoresearch (Karpathy) —— 人人都在 fork、都在围着它建平台的那套模式，从论文复现到嘈杂的真实世界目标（@askalphaxiv、@elliot_c_smith、@iScienceLuvr）。

← 上一篇

超级用户日报: 2026年7月2日

灵感雷达: 2026年7月2日

← 返回所有文章

加载中...

Loop 日报: 2026年7月2日

相关文章

评论