Loop 日报: 2026年7月2日
这一轮真正的看点不是"agent 能跑循环",而是循环终于便宜到可以一直挂着不管。Sonnet 5 把价格打下来之后,通宵交易机器人和常驻研究 agent 从烧钱黑洞变成了理所当然的选择,大家晒出的结果也印证了这点:四条 prompt 复现一篇论文、一个赚了五十万的交易循环、一个靠每轮自我纠错就跑赢人类的天气预报器。在满屏蹭热度的水贴底下,一套真正的方法论正在成形:agent 循环加验证器加记忆加调度。同时也有一群清醒的怀疑派在提醒大家:一个跑得飞快、却指向一个孱弱验证器的内循环,只是一种昂贵的烧 token 方式。
#1
@askalphaxiv
https://x.com/askalphaxiv/status/2072097922595029357
他们用自家的 AutoResearch 工具端到端复现了一篇论文(DiffusionBlocks),并发现结果对训练预算很敏感:在只跑到所需 epoch 25% 时还追不上基线,但把层数从 12 提到 24(这是原论文从没探索过的方向)后,仅用 25% 的 epoch 就反超了基线。整套实验全靠四条大白话 prompt 驱动完成。这是目前 autoresearch 真正做科研、而不是演示 demo 的最清晰案例。
https://x.com/askalphaxiv/status/2072097922595029357
他们用自家的 AutoResearch 工具端到端复现了一篇论文(DiffusionBlocks),并发现结果对训练预算很敏感:在只跑到所需 epoch 25% 时还追不上基线,但把层数从 12 提到 24(这是原论文从没探索过的方向)后,仅用 25% 的 epoch 就反超了基线。整套实验全靠四条大白话 prompt 驱动完成。这是目前 autoresearch 真正做科研、而不是演示 demo 的最清晰案例。
#2
@antpalkin
https://x.com/antpalkin/status/2072083069339943277
一个身无分文的 23 岁年轻人在里斯本用 agent 循环搭了个交易机器人,跑了一个月因为 API 账单把钱全吃光只好关掉,等 Sonnet 5 把成本从每天约 4000 美元砍到不到 4 美元后又重新开了起来。同一个机器人,成本只剩零头,据说赚了 50 万美元。他的观点很犀利:循环本身一直是可行的,是模型让运行它变得付得起,而一个永远在跑的循环会留住有效的策略,每晚重写自己的规则。
https://x.com/antpalkin/status/2072083069339943277
一个身无分文的 23 岁年轻人在里斯本用 agent 循环搭了个交易机器人,跑了一个月因为 API 账单把钱全吃光只好关掉,等 Sonnet 5 把成本从每天约 4000 美元砍到不到 4 美元后又重新开了起来。同一个机器人,成本只剩零头,据说赚了 50 万美元。他的观点很犀利:循环本身一直是可行的,是模型让运行它变得付得起,而一个永远在跑的循环会留住有效的策略,每晚重写自己的规则。
#3
@heckmeier
https://x.com/heckmeier/status/2072001751947862074
他把 agent 循环接到了真实的物理世界:实时天气加摄像头数据加 11 年的历史观测,专门用来预测一个具体的本地现象(Maloja 山风)。目标是做一个能跑赢人类预报员、还能自己发现前人未记录的依赖关系的自我改进预报器,每一轮都由现实来纠正它。这是把循环闭合到物理世界、而不是闭合到某个 benchmark 的漂亮范例。
https://x.com/heckmeier/status/2072001751947862074
他把 agent 循环接到了真实的物理世界:实时天气加摄像头数据加 11 年的历史观测,专门用来预测一个具体的本地现象(Maloja 山风)。目标是做一个能跑赢人类预报员、还能自己发现前人未记录的依赖关系的自我改进预报器,每一轮都由现实来纠正它。这是把循环闭合到物理世界、而不是闭合到某个 benchmark 的漂亮范例。
#4
@elliot_c_smith
https://x.com/elliot_c_smith/status/2072086311784333573
他做了个实验,把 Claude Code 扔到一个没有明确梯度的优化问题上,灵感明确来自 Karpathy 的 Autoresearch,但针对"现实代码大多信号嘈杂"这一事实做了改造。这是这套模式的诚实版本:没有干净的 loss 曲线,而是一个 agent 对着一个混乱的真实世界目标反复迭代。随着 autoresearch 从玩具问题走向嘈杂问题,这个方向值得关注。
https://x.com/elliot_c_smith/status/2072086311784333573
他做了个实验,把 Claude Code 扔到一个没有明确梯度的优化问题上,灵感明确来自 Karpathy 的 Autoresearch,但针对"现实代码大多信号嘈杂"这一事实做了改造。这是这套模式的诚实版本:没有干净的 loss 曲线,而是一个 agent 对着一个混乱的真实世界目标反复迭代。随着 autoresearch 从玩具问题走向嘈杂问题,这个方向值得关注。
#5
@iScienceLuvr
https://x.com/iScienceLuvr/status/2071886472844894381
他宣布正在做 Labless,一个面向 autoresearch 和 agentic research 的新平台,并公开征集反馈和合作方。有意思的信号不是这次安利本身,而是"autoresearch 平台"已经成了一个值得拿来命名创业公司的品类。Karpathy 那套模式底下的工具层,正在被真刀真枪地建起来。
https://x.com/iScienceLuvr/status/2071886472844894381
他宣布正在做 Labless,一个面向 autoresearch 和 agentic research 的新平台,并公开征集反馈和合作方。有意思的信号不是这次安利本身,而是"autoresearch 平台"已经成了一个值得拿来命名创业公司的品类。Karpathy 那套模式底下的工具层,正在被真刀真枪地建起来。
#6
@0xProbabillity
https://x.com/0xProbabillity/status/2071965889298133357
一篇详尽拆解 Spotify agentic 工作流的工程文章,核心教训是:这事的关键不在 prompt。他们靠投资车队管理式的基础设施和标准化,把 PR 频率提升了 75%,搭了一个 Linux/macOS 验证循环,让跑在 Claude Agent SDK 上的 agent 写代码、触发构建、自己修错,循环到通过为止,然后又把测试自动化做到足够强,实现无人参与的自动合并。如今非工程师也能在两小时内把原型上架到内部 App Store。
https://x.com/0xProbabillity/status/2071965889298133357
一篇详尽拆解 Spotify agentic 工作流的工程文章,核心教训是:这事的关键不在 prompt。他们靠投资车队管理式的基础设施和标准化,把 PR 频率提升了 75%,搭了一个 Linux/macOS 验证循环,让跑在 Claude Agent SDK 上的 agent 写代码、触发构建、自己修错,循环到通过为止,然后又把测试自动化做到足够强,实现无人参与的自动合并。如今非工程师也能在两小时内把原型上架到内部 App Store。
#7
@jordiponsdotme
https://x.com/jordiponsdotme/status/2071938261258326079
他分享了自己写作用的那套 agent 循环:先起一份草稿,让一个 agent 以顶会 ML 审稿人的身份评审,再让第二个 agent 以科学作者的身份重写,然后反复走"评审—重写"这个循环,直到审稿人满意为止。这是个干净、可复现、内建质量门槛的双 agent 循环。验证器就是另一个扮演严苛批评者的 agent。
https://x.com/jordiponsdotme/status/2071938261258326079
他分享了自己写作用的那套 agent 循环:先起一份草稿,让一个 agent 以顶会 ML 审稿人的身份评审,再让第二个 agent 以科学作者的身份重写,然后反复走"评审—重写"这个循环,直到审稿人满意为止。这是个干净、可复现、内建质量门槛的双 agent 循环。验证器就是另一个扮演严苛批评者的 agent。
#8
@0xCodez
https://x.com/0xCodez/status/2071996078568701978
他拆解了如何给自我改进的 agent 构建记忆:程序性记忆(skill,即怎么行动)、语义性记忆(持久的事实和画像)、情景性记忆(带日期的事件和聊天历史)。他的框架是:记忆是任何 agent 循环的核心组成,而记忆加循环加 harness 加 evals,才是把一次性机器人变成自我改进系统的关键。这是对大多数人跳过的那块给出的一套具体心智模型。
https://x.com/0xCodez/status/2071996078568701978
他拆解了如何给自我改进的 agent 构建记忆:程序性记忆(skill,即怎么行动)、语义性记忆(持久的事实和画像)、情景性记忆(带日期的事件和聊天历史)。他的框架是:记忆是任何 agent 循环的核心组成,而记忆加循环加 harness 加 evals,才是把一次性机器人变成自我改进系统的关键。这是对大多数人跳过的那块给出的一套具体心智模型。
#9
@cshekhar
https://x.com/cshekhar/status/2071878507483848748
他运营着一个内部 agent 部署平台,用 microVM 加 Kernel 7 做租户隔离,这样一个有漏洞的免费层应用就没法把爆炸半径波及到其他人,而驱动它的 agent 循环是开源的,对任何有风险的操作都内建了 human-in-the-loop 审批。这是"放手让 agent 跑循环"的成熟版:真隔离加真审批门。基础设施层面的讨论,正在追上能力层面。
https://x.com/cshekhar/status/2071878507483848748
他运营着一个内部 agent 部署平台,用 microVM 加 Kernel 7 做租户隔离,这样一个有漏洞的免费层应用就没法把爆炸半径波及到其他人,而驱动它的 agent 循环是开源的,对任何有风险的操作都内建了 human-in-the-loop 审批。这是"放手让 agent 跑循环"的成熟版:真隔离加真审批门。基础设施层面的讨论,正在追上能力层面。
#10
@GAXEN10
https://x.com/GAXEN10/status/2071980076401668365
他描述了如何用 Claude Code Dynamic Workflows 取代原来那套四 agent 的晨间流程(研究、写作、评审、发布,每一步之间还得手动复制粘贴)。一条命令就拉起一个 dashboard,实时显示每个阶段并行运行、消耗了多少 token、哪个子 agent 正在执行或校验,整个循环由 Claude 写成 .claude/workflows 文件夹里的一个 JavaScript 文件。三小时的盯梢变成了四分钟的配置,如今他一天跑六条工作流循环。
https://x.com/GAXEN10/status/2071980076401668365
他描述了如何用 Claude Code Dynamic Workflows 取代原来那套四 agent 的晨间流程(研究、写作、评审、发布,每一步之间还得手动复制粘贴)。一条命令就拉起一个 dashboard,实时显示每个阶段并行运行、消耗了多少 token、哪个子 agent 正在执行或校验,整个循环由 Claude 写成 .claude/workflows 文件夹里的一个 JavaScript 文件。三小时的盯梢变成了四分钟的配置,如今他一天跑六条工作流循环。
#11
@hedgineering
https://x.com/hedgineering/status/2071951901491376441
一期播客节目,拆解了对投资团队来说 agent 循环到底是什么,以及真正用起来是什么样子,从财报速览一路讲到点子生成。它的框架是:循环让分析师从被动敲 prompt 转向自主流水线,从而提升点子的产出速度。这是循环模式正落地到金融工作流、而不只是停留在写代码的具体证据。
https://x.com/hedgineering/status/2071951901491376441
一期播客节目,拆解了对投资团队来说 agent 循环到底是什么,以及真正用起来是什么样子,从财报速览一路讲到点子生成。它的框架是:循环让分析师从被动敲 prompt 转向自主流水线,从而提升点子的产出速度。这是循环模式正落地到金融工作流、而不只是停留在写代码的具体证据。
#12
@thenightshipper
https://x.com/thenightshipper/status/2071997788347642005
他提出了一个被低估的观点:今年 agent 内循环大约快了 100 倍,而外部反馈循环(真实用户、真实市场)并没有变快,所以"该造什么"如今才是瓶颈,而不是"我能不能造出来"。大多数工程师精于内循环、拙于外循环,而这道鸿沟才是现在真正的能力。这是对"自主到底在哪里帮得上忙、在哪里帮不上"的清醒判断。
https://x.com/thenightshipper/status/2071997788347642005
他提出了一个被低估的观点:今年 agent 内循环大约快了 100 倍,而外部反馈循环(真实用户、真实市场)并没有变快,所以"该造什么"如今才是瓶颈,而不是"我能不能造出来"。大多数工程师精于内循环、拙于外循环,而这道鸿沟才是现在真正的能力。这是对"自主到底在哪里帮得上忙、在哪里帮不上"的清醒判断。
#13
@kingofknowwhere
https://x.com/kingofknowwhere/status/2071928945054994561
他做了个 MVP(纯 vibe-coded),一个能根据每次用户交互从 Telegram 自我更新的网站:每一次表单提交都会送给一个开发者 agent,变成一张由该 agent 处理的 Jira 工单,全程自主完成。每一次访问都是网站自我改进的机会。这是个粗糙但真实的闭环,用户行为直接喂进构建队列。
https://x.com/kingofknowwhere/status/2071928945054994561
他做了个 MVP(纯 vibe-coded),一个能根据每次用户交互从 Telegram 自我更新的网站:每一次表单提交都会送给一个开发者 agent,变成一张由该 agent 处理的 Jira 工单,全程自主完成。每一次访问都是网站自我改进的机会。这是个粗糙但真实的闭环,用户行为直接喂进构建队列。
#14
@valhalla_dev
https://x.com/valhalla_dev/status/2072004864339505397
他在一次黑客松上做了 LAIN,即 Loki Agent Intelligence Network:agent 跑自我改进循环,在某一个领域里成长为天才级的专家,然后把研究卖给人类,还用 Stripe 的 Machine Payment Protocol 自主向其他 agent 购买研究。在 demo 里,一个 agent 报出一份报告的价格、收下一笔真实的 Stripe 付款,再付钱给第二个专家 agent 让它出一份关于 NVIDIA 经济学的子报告,最后把两份合并。这是一瞥有真金白银流动的自我改进 agent 市场。
https://x.com/valhalla_dev/status/2072004864339505397
他在一次黑客松上做了 LAIN,即 Loki Agent Intelligence Network:agent 跑自我改进循环,在某一个领域里成长为天才级的专家,然后把研究卖给人类,还用 Stripe 的 Machine Payment Protocol 自主向其他 agent 购买研究。在 demo 里,一个 agent 报出一份报告的价格、收下一笔真实的 Stripe 付款,再付钱给第二个专家 agent 让它出一份关于 NVIDIA 经济学的子报告,最后把两份合并。这是一瞥有真金白银流动的自我改进 agent 市场。
#15
@arcprize
https://x.com/arcprize/status/2072069184146833674
他重点介绍了 Continual Harness,一个来自 Prime Intellect、跑在 ARC-AGI-3 上的高效自我改进 agent,这个 benchmark 极重的测试时学习逼着 agent 去构建一个关于规则和机制的内部世界模型,并随新证据到来不断更新。这里的自我改进是任务本身的硬性要求,而不是一句营销标签。是这一轮自我改进 agent 领域里更严谨的作品之一。
https://x.com/arcprize/status/2072069184146833674
他重点介绍了 Continual Harness,一个来自 Prime Intellect、跑在 ARC-AGI-3 上的高效自我改进 agent,这个 benchmark 极重的测试时学习逼着 agent 去构建一个关于规则和机制的内部世界模型,并随新证据到来不断更新。这里的自我改进是任务本身的硬性要求,而不是一句营销标签。是这一轮自我改进 agent 领域里更严谨的作品之一。
#16
@TeksCreate
https://x.com/TeksCreate/status/2071782195962806289
他详细审视了 Hermes Agent,这个从每一次会话中学习的自我改进 agent,star 数刚过 20.5 万。它的闭环学习会在完成复杂任务后自主创建 skill、在使用中自我改进这些 skill、持久化知识,并检索自己过往的对话,全部建立在"轨迹生成到压缩到训练反馈"的流水线之上。值得追踪的说法是:这类 agent 在工具调用上会随时间可测量地变强,而不是一直停留在静态的 prompt 工程机器人。
https://x.com/TeksCreate/status/2071782195962806289
他详细审视了 Hermes Agent,这个从每一次会话中学习的自我改进 agent,star 数刚过 20.5 万。它的闭环学习会在完成复杂任务后自主创建 skill、在使用中自我改进这些 skill、持久化知识,并检索自己过往的对话,全部建立在"轨迹生成到压缩到训练反馈"的流水线之上。值得追踪的说法是:这类 agent 在工具调用上会随时间可测量地变强,而不是一直停留在静态的 prompt 工程机器人。
#17
@bsormagec
https://x.com/bsormagec/status/2072001373504151568
他对 Ornith-1.0 做了一次冷静的分析,这是个开源权重的编码模型,用一套自我改进 RL 框架训练,同时优化解题 rollout 和引导它们的 scaffold。他的关键提醒戳破了品牌话术:这里的"自我改进"是训练时的技巧(RL 生成的 harness),不是运行时的进化,所以你该买单的是"开源权重加工具链"这个故事,而不是营销。这是提醒大家要仔细读"自我改进"这类说法的一记有用警钟。
https://x.com/bsormagec/status/2072001373504151568
他对 Ornith-1.0 做了一次冷静的分析,这是个开源权重的编码模型,用一套自我改进 RL 框架训练,同时优化解题 rollout 和引导它们的 scaffold。他的关键提醒戳破了品牌话术:这里的"自我改进"是训练时的技巧(RL 生成的 harness),不是运行时的进化,所以你该买单的是"开源权重加工具链"这个故事,而不是营销。这是提醒大家要仔细读"自我改进"这类说法的一记有用警钟。
#18
@AndrewK404
https://x.com/AndrewK404/status/2072034692790927570
研究了几天 Claude Code、Codex、OpenHands、Hermes 和 LangGraph 之后,他确信整个行业已经收敛到同一套 Agent Runtime 架构:收集历史、发给模型,如果有工具调用就执行工具再回到第一步,否则就返回答案。整个循环就这么点东西。这是对"agent 在底层到底是什么"的一个干净、去魅的描述。
https://x.com/AndrewK404/status/2072034692790927570
研究了几天 Claude Code、Codex、OpenHands、Hermes 和 LangGraph 之后,他确信整个行业已经收敛到同一套 Agent Runtime 架构:收集历史、发给模型,如果有工具调用就执行工具再回到第一步,否则就返回答案。整个循环就这么点东西。这是对"agent 在底层到底是什么"的一个干净、去魅的描述。
#19
@MaziyarPanahi
https://x.com/MaziyarPanahi/status/2071955191260151862
他在 Mac Studio 上通过 llama.cpp 本地运行 GLM-5.2,给它接了个浏览器,围绕 browser-use 搭了个 agent 循环。他让它去找一个 PII 模型,它自己在 Hugging Face 上搜索并挖出了 privacy-filter-nemotron,一个开源模型找出了另一个。他的原话是:AI 必须被拥有,而不是被租用。这是个具体的、全本地的 agent 循环,有真实的工具调用,且不依赖任何 API。
https://x.com/MaziyarPanahi/status/2071955191260151862
他在 Mac Studio 上通过 llama.cpp 本地运行 GLM-5.2,给它接了个浏览器,围绕 browser-use 搭了个 agent 循环。他让它去找一个 PII 模型,它自己在 Hugging Face 上搜索并挖出了 privacy-filter-nemotron,一个开源模型找出了另一个。他的原话是:AI 必须被拥有,而不是被租用。这是个具体的、全本地的 agent 循环,有真实的工具调用,且不依赖任何 API。
#20
@IhorSkiba
https://x.com/IhorSkiba/status/2071962711488184690
他报告了 53 小时、1520 个任务完成、零手打 prompt,并列出了循环的四级台阶,大多数人连第一级都爬不过:agent 循环(模型调用工具直到达成目标)、验证循环(一个打分器在输出交付前按 rubric 逐项评分)、事件驱动循环(由 cron 或 webhook 触发)、以及爬坡循环(agent 读自己的 trace,每晚重写自己的 prompt)。他的观点是:只有当敲键盘的不再是你,你才拿得到那种复利式的收益。
https://x.com/IhorSkiba/status/2071962711488184690
他报告了 53 小时、1520 个任务完成、零手打 prompt,并列出了循环的四级台阶,大多数人连第一级都爬不过:agent 循环(模型调用工具直到达成目标)、验证循环(一个打分器在输出交付前按 rubric 逐项评分)、事件驱动循环(由 cron 或 webhook 触发)、以及爬坡循环(agent 读自己的 trace,每晚重写自己的 prompt)。他的观点是:只有当敲键盘的不再是你,你才拿得到那种复利式的收益。
#21
@dipankarsarkar
https://x.com/dipankarsarkar/status/2071991327156220400
一个很棒的具体调试故事:他给一个 agent 循环做性能剖析,本以为慢在模型上,结果是每一轮对状态对象做的 deepcopy。换掉序列化路径后整体快了约 30 倍,全程压根没碰 agent 本身。这提醒我们:很多 agent 延迟并不住在硅片上,而是住在你自己的管道里,不在 LLM 那儿。
https://x.com/dipankarsarkar/status/2071991327156220400
一个很棒的具体调试故事:他给一个 agent 循环做性能剖析,本以为慢在模型上,结果是每一轮对状态对象做的 deepcopy。换掉序列化路径后整体快了约 30 倍,全程压根没碰 agent 本身。这提醒我们:很多 agent 延迟并不住在硅片上,而是住在你自己的管道里,不在 LLM 那儿。
#22
@johniosifov
https://x.com/johniosifov/status/2072002479525380409
他拿 Cognition 的 Devin 报出的"自家代码库如今 89% 由其 agent 编写"当引子,接着分享自己的经历:跑了 109 次内容爆发(会话、PR、帖子、研究、战略),全靠一个 agent 循环驱动,没有一句内容是人写的。他的结论是:限制因素不是 AI 的能力,而是人愿不愿意定清楚目标、并把执行权交给 agent。没有人类摩擦的迭代速度,才是真正的解锁。
https://x.com/johniosifov/status/2072002479525380409
他拿 Cognition 的 Devin 报出的"自家代码库如今 89% 由其 agent 编写"当引子,接着分享自己的经历:跑了 109 次内容爆发(会话、PR、帖子、研究、战略),全靠一个 agent 循环驱动,没有一句内容是人写的。他的结论是:限制因素不是 AI 的能力,而是人愿不愿意定清楚目标、并把执行权交给 agent。没有人类摩擦的迭代速度,才是真正的解锁。
#23
@jerryjliu0
https://x.com/jerryjliu0/status/2072035931050426782
他把文档解析定位成必须活在 agent 循环内部的东西:当用户往 agent 里扔进 1000 份 PDF,你需要一趟极快的处理来先摸清这些文档,然后才好深入,这正是他们做 LiteParse 这个开源项目的原因,它专为在 agent 循环里运行、并在需要时路由到更深的 VLM 增强模式而设计。这提醒我们:真实的 agent 循环需要快而便宜的感知步骤,而不是只有一个大模型。解析正在成为循环基础设施。
https://x.com/jerryjliu0/status/2072035931050426782
他把文档解析定位成必须活在 agent 循环内部的东西:当用户往 agent 里扔进 1000 份 PDF,你需要一趟极快的处理来先摸清这些文档,然后才好深入,这正是他们做 LiteParse 这个开源项目的原因,它专为在 agent 循环里运行、并在需要时路由到更深的 VLM 增强模式而设计。这提醒我们:真实的 agent 循环需要快而便宜的感知步骤,而不是只有一个大模型。解析正在成为循环基础设施。
#24
@HolmesosaurusRx
https://x.com/HolmesosaurusRx/status/2071812299309133946
今天最犀利的怀疑派:循环对简单的客观任务有效(跑 lint、修掉明显的问题、重跑一次、停),但在研究综述、产品判断、定价这类复杂工作上会变得危险,因为那里验证器孱弱,模型会自己造活、烧 token。他的替代方案是人类主导的编排:人定标准,agent 做一趟有边界的处理,agent 按明确标准自我验证,人来决定下一步。"没有编排的自主,只是一个精力无限、还刷着你信用卡的昂贵实习生。"
https://x.com/HolmesosaurusRx/status/2071812299309133946
今天最犀利的怀疑派:循环对简单的客观任务有效(跑 lint、修掉明显的问题、重跑一次、停),但在研究综述、产品判断、定价这类复杂工作上会变得危险,因为那里验证器孱弱,模型会自己造活、烧 token。他的替代方案是人类主导的编排:人定标准,agent 做一趟有边界的处理,agent 按明确标准自我验证,人来决定下一步。"没有编排的自主,只是一个精力无限、还刷着你信用卡的昂贵实习生。"
📡 生态产品雷达
生态产品雷达
Claude Code —— agent 循环和 Dynamic Workflows 的默认宿主,从 Spotify 的验证循环到一条命令搞定的通宵工作流农场(@0xProbabillity、@GAXEN10、@elliot_c_smith)。
Hermes Agent —— 这一轮的自我改进 agent 标杆,其闭环 skill 学习被当作值得照抄的架构反复引用(@TeksCreate、@AndrewK404、@valhalla_dev)。
Sonnet 5 —— 让常驻循环在经济上变得合理的那次价格变动,被反复归功为死掉的机器人重新开机的原因(@antpalkin)。
autoresearch (Karpathy) —— 人人都在 fork、都在围着它建平台的那套模式,从论文复现到嘈杂的真实世界目标(@askalphaxiv、@elliot_c_smith、@iScienceLuvr)。
Claude Code —— agent 循环和 Dynamic Workflows 的默认宿主,从 Spotify 的验证循环到一条命令搞定的通宵工作流农场(@0xProbabillity、@GAXEN10、@elliot_c_smith)。
Hermes Agent —— 这一轮的自我改进 agent 标杆,其闭环 skill 学习被当作值得照抄的架构反复引用(@TeksCreate、@AndrewK404、@valhalla_dev)。
Sonnet 5 —— 让常驻循环在经济上变得合理的那次价格变动,被反复归功为死掉的机器人重新开机的原因(@antpalkin)。
autoresearch (Karpathy) —— 人人都在 fork、都在围着它建平台的那套模式,从论文复现到嘈杂的真实世界目标(@askalphaxiv、@elliot_c_smith、@iScienceLuvr)。
评论