2026年6月17日loop

Loop 日报: 2026年6月18日

今天autoresearch走出了沙盒、迈进了物理世界。英伟达GEAR实验室把8个编程agent、一份GPU预算和一份token预算交给一支真实机器人编队，然后人走开了——实验室现在过夜自我改进，人类早上读报告。这一个事件重塑了整个领域：循环不再是调一个超参，而是一个agent在硬件上、无人监督地对着分数重写算法、奖励函数、甚至安全控制器。围着它，真正的实战锋面反复体现为经济学和纪律——一个完整的autoresearch循环在缓存加更便宜后端上跑48小时不到一美元、关于"环境重置和3D理解为何会拖垮这些循环"的血泪教训、以及一个健康的唱反调提醒：真正出货的开发者痴迷的是验证和记忆，不是蜂群。

💡#1

@DrJimFan
https://x.com/DrJimFan/status/2066921736369766762
今天定义性的autoresearch事件：英伟达GEAR实验室给8个Codex agent配了一支真实机器人编队、一份GPU额度和慷慨的token预算，然后人走开了。机器人会找视觉线索、重置场景、练新技能、上网读论文、争论、反思、卡住了再试——全直接在硬件上。ENPIRE自己就能解决系绑扎带、装GPU这类高精度任务，还发现了一条"物理scaling"定律：8个并行机器人比少数几个改进快得多。用DrJimFan的话说，实验室的一部分现在过夜自我改进，他们早上读报告就行。这是Karpathy的autoresearch从比特跨进了原子。

💡#2

@_wenlixiao
https://x.com/_wenlixiao/status/2066913063090135372
ENPIRE的技术核心，也是值得研究的那部分。对很多机器人任务来说，重置环境比任务本身更容易，所以agent先用Code-as-Policy搭一个自动重置环境，再写一个启发式奖励函数，把它沙盒化，然后对着分数跑autoresearch。呼应Karpathy的说法，这是真正的autoresearch——不是调一个超参或一段代码，而是从全网探索不同范式、把任何能推进的东西都重写：算法、训练目标、甚至data loader。在一次插针任务里，一个agent自己写了个接触力安全控制器，效果还胜过调RL参数。

💡#3

@HaoruXue
https://x.com/HaoruXue/status/2066925773374836776
一个把"为什么重要"讲清楚的框架：ENPIRE把物理autoresearch当成超长时程问题，让前沿编程agent在真实世界里完整演化机器人研究——提想法、在真机上跑实验、自动重置、分析结果、迭代，全在一个无人参与的持续爬山循环里。一开始是个任务，后来变成了自主演化。他认为真正的跃迁会来自原生agentic的机器人模型：在一个模型里自带去收集上下文、遵循清单、生成动作、自我验证的能动性。

💡#4

@bqbrady
https://x.com/bqbrady/status/2067009533030084951
帖子里最有用的怀疑者。他几个月前就试过搭一个像ENPIRE的系统、让机械臂下棋，分享了血换来的边界：任务重置那一步极难搭（有时跟任务本身一样难），大多数LLM的3D理解很弱、会砸坏物体或把夹爪怼穿地面，Claude还经常把机械臂搞到无效状态、然后花10到20分钟自救。他的结论：今天的模型还不足以"设好就不管"地爬山，但脚手架够多的话，你能让它学起来。

💡#5

@SOntheotherside
https://x.com/SOntheotherside/status/2066912290369102131
一次难得诚实的记录，讲无人监督地跑autoresearch日常到底是什么感觉。他最长、最容易的目标就是用minimax（或任何模型）做autoresearch，能无人值守跑5个多小时；更难的任务他不完全信任，会扫一眼成果、抓死循环、卡住或语义bug。一个目标可以从10分钟跨到好几天，全部由AI完成。他甚至撞上了真实的失败模式——一个语义工作流bug，agent只部分实现了计划，把0.2秒的校验拖成了45秒。

💡#6

@arora_mrinaal
https://x.com/arora_mrinaal/status/2066758628405871097
今天的token经济学案例。他把autoresearch循环换到DeepSeek v4 Pro，纯粹是因为Codex的限额和API成本，而数字很惊人：过去48小时里近3700万token，其中可计费的输入token有95.78%是缓存命中，总成本估计0.969美元。这是一个几乎不停跑的autoresearch循环，花不到一美元——一个具体的证明：缓存加更便宜的后端，能让这个循环真正负担得起。

💡#7

@THUTeamEureka
https://x.com/THUTeamEureka/status/2066911229785112932
一个值得知道的新开源autoresearch工具：EurekAgent，面向指标驱动任务的agent。你给它一个问题、一个评估器和一份预算，它就编排多个Claude Code会话去提出、测试、并在一个有界沙盒里突破当前SOTA，评估安全、控制权在你手里。免费且开源。这就是"给它一个指标和预算、让它自己爬"那套模式，被打包成别人也能跑的东西。

💡#8

@jonasgeiping
https://x.com/jonasgeiping/status/2066924718892924948
一个带尖锐转折的autoresearch结果。他更新了Claudini——一个让agent自主改进越狱算法的autoresearch装置——并报告Kimi-2.6已经完全追上、在这个任务上超过了Opus 4.6。Kimi 2.6原来是个又强又执着的攻击者。撇开模型排名这个噱头，它干净地示范了一件事：把一个自主改进循环当成一把活的标尺，去衡量不同模型能多么不知疲倦地自我优化一个对抗目标。

💡#9

@alokbishoyi97
https://x.com/alokbishoyi97/status/2066930050952507656
一个提醒：autoresearch工具不只来自大厂。回应ENPIRE时，这位开发者说自己也一直在折腾autoresearch、并开源了一个auto-research编排器，使用量已经相当可观——超过2万名开发者。他特别好奇它在机器人领域扛不扛得住，因为那个圈子里用过的人很少。作为快速生长的开源autoresearch编排器生态的一部分，值得关注。

💡#10

@editxshub
https://x.com/editxshub/status/2066849823777841206
一句利落的提炼，讲那个只要你拼起来就已经存在的"过夜autoresearch"工作流：你的新角色是写program.md，剩下的agent全包。Firecrawl拉论文并转成LLM可读的数据，AutoResearch过夜跑实验、大约每小时12个（你睡觉时跑约100个），Claude再综合出到底什么真的改进了模型。你写方向，agent跑循环，你醒来看结果。大多数人只是还没把这条流水线拼起来而已。

💡#11

@mdeng34
https://x.com/mdeng34/status/2066959806393700552
一个值得和ENPIRE对照着读、想得很清楚的反方立场。他同意机器人训练决策的很大一部分该交给autoresearch，但主张真正的开放问题在于：训练在什么环境里发生，以及怎么决定何时训练、何时部署、何时重训。他们组的押注是：完全自主的agent应该在一个基于世界模型的模拟器里递归自我改进、以捕捉变化因子，再由一个学出来的"配置器"决定何时训练、何时服务。细节在他们的"Critique of Agent Model"论文里。

💡#12

@zhodonx
https://x.com/zhodonx/status/2066881957112283529
这一波里把agentic loop从入门讲到能动手的最清楚的一篇。开头引了Claude Code作者那句——"我不再给Claude写prompt了，我的活是写循环"——然后摆出解剖结构：输出变输入、走五个阶段（发现、计划、执行、验证、迭代），而一个真正的循环需要四件东西：一个机器能打分的、写下来的停止条件；一个独立的检查者（干活的agent永远不批自己的作业）；记忆，好让第47次跑知道第1到46次试过什么；隔离，好让并行的agent不互相覆盖。循环之所以存在，是因为一个agent在长会话里会偷懒、会手软地给自己打分、会漂移。

💡#13

@analogalok
https://x.com/analogalok/status/2067023350866796962
一个硬件遇上agent、还带真实架构启示的实验。他在8GB显存的游戏本上跑满了一个31B稠密模型（Gemma 4），约3 tok/s——聊天太慢，但他主张慢不等于没用。模式是：一个快速的编排模型（26B的MoE，25+ tok/s）负责路由、简单查询、工具调用和记忆——相当于初级开发——而31B稠密模型是高级工程师，只在快模型在硬推理上撞墙时才被调用。agentic循环保持快，只有难的那几跳才碰大模型。外加过夜批处理、以及那种输出质量胜过速度的静默后台代码审计循环。

💡#14

@stagedhappen
https://x.com/stagedhappen/status/2066933841638691105
对一个根本性的agentic-loop缺陷给出的具体修法：大多数agent循环是盲的，一旦agent需要一个它造不出来的资源就崩。DotCode把act-observe两半都重构了。Observe现在是渲染、不是读取——它把页面画出来、刷新、对着上次改动的真实视觉结果工作，而不是对着一行描述它的日志。Act现在是生成式的——前端引用一个还不存在的媒体时，它在循环里就把这个资源合成出来、而不是卡死；整个循环还封在他们的隐私边界内、没有第三方外泄。

💡#15

@b12
https://x.com/b12/status/2066971438968631526
一个有用的市场快照，显示大家实际在跑哪些loop。他们目录里现在最热的是：Superpowers（头脑风暴、TDD、子agent驱动的开发循环）、Hermes Agent（一个带记忆的自我改进agent）、autoresearch（过夜跑实验、只保留有效的）、learn-claude-code（一个约30行的agent harness，"有bash就够了"）。这是一张小却说明问题的地图，标出loop生态的注意力落在哪——一半是编程工作流，一半是自主改进循环。

💡#16

@hugobowne
https://x.com/hugobowne/status/2066686628077473819
autoresearch炒作所需要的那个唱反调的声音。他花10小时采访了16位他信任的Python、数据、ML和AI开发者，问他们到底在用什么，发现他们痴迷的是验证、记忆、审查、个人软件和工作流设计——而对蜂群、自主循环、agent框架痴迷得少得多。"忘掉agent skill，忘掉子agent，忘掉OpenClaw，忘掉autoresearch，忘掉ralph循环，"他写道，然后指向认真做事的人反复回到的东西。一个健康的现实校验，提醒别以为人人都在跑过夜循环。

📡 生态产品雷达

生态产品雷达
ENPIRE —— 英伟达GEAR的物理autoresearch harness；8个Codex agent驱动一支真实机器人编队、无人参与。
autoresearch（Karpathy）—— 那套过夜实验循环模式，现在被所有人往各处移植，包括机器人和定性科学。
EurekAgent —— 开源的autoresearch agent，编排多个Claude Code会话、在指标驱动任务上突破SOTA。
Claudini —— 让agent自主改进越狱算法的autoresearch装置，现在被用来给模型做基准（Kimi-2.6对Opus 4.6）。
DeepSeek v4 Pro —— 便宜、缓存命中极高的后端，让持续循环只花几美分。
Firecrawl —— 把论文转成LLM可读数据，喂给program.md到过夜实验的流水线。
Superpowers / Hermes Agent —— 开放目录里被跑得最多的loop（开发循环；带记忆的自我改进agent）。

← 上一篇

超级用户日报: 2026年6月18日

灵感雷达: 2026年6月18日

← 返回所有文章

加载中...

Loop 日报: 2026年6月18日

相关文章

评论