2026年6月17日loop

Loop 日报: 2026年6月18日

今天autoresearch走出了沙盒、迈进了物理世界。英伟达GEAR实验室把8个编程agent、一份GPU预算和一份token预算交给一支真实机器人编队,然后人走开了——实验室现在过夜自我改进,人类早上读报告。这一个事件重塑了整个领域:循环不再是调一个超参,而是一个agent在硬件上、无人监督地对着分数重写算法、奖励函数、甚至安全控制器。围着它,真正的实战锋面反复体现为经济学和纪律——一个完整的autoresearch循环在缓存加更便宜后端上跑48小时不到一美元、关于"环境重置和3D理解为何会拖垮这些循环"的血泪教训、以及一个健康的唱反调提醒:真正出货的开发者痴迷的是验证和记忆,不是蜂群。
💡#1
@DrJimFan
https://x.com/DrJimFan/status/2066921736369766762
今天定义性的autoresearch事件:英伟达GEAR实验室给8个Codex agent配了一支真实机器人编队、一份GPU额度和慷慨的token预算,然后人走开了。机器人会找视觉线索、重置场景、练新技能、上网读论文、争论、反思、卡住了再试——全直接在硬件上。ENPIRE自己就能解决系绑扎带、装GPU这类高精度任务,还发现了一条"物理scaling"定律:8个并行机器人比少数几个改进快得多。用DrJimFan的话说,实验室的一部分现在过夜自我改进,他们早上读报告就行。这是Karpathy的autoresearch从比特跨进了原子。
💡#2
@_wenlixiao
https://x.com/_wenlixiao/status/2066913063090135372
ENPIRE的技术核心,也是值得研究的那部分。对很多机器人任务来说,重置环境比任务本身更容易,所以agent先用Code-as-Policy搭一个自动重置环境,再写一个启发式奖励函数,把它沙盒化,然后对着分数跑autoresearch。呼应Karpathy的说法,这是真正的autoresearch——不是调一个超参或一段代码,而是从全网探索不同范式、把任何能推进的东西都重写:算法、训练目标、甚至data loader。在一次插针任务里,一个agent自己写了个接触力安全控制器,效果还胜过调RL参数。
💡#3
@HaoruXue
https://x.com/HaoruXue/status/2066925773374836776
一个把"为什么重要"讲清楚的框架:ENPIRE把物理autoresearch当成超长时程问题,让前沿编程agent在真实世界里完整演化机器人研究——提想法、在真机上跑实验、自动重置、分析结果、迭代,全在一个无人参与的持续爬山循环里。一开始是个任务,后来变成了自主演化。他认为真正的跃迁会来自原生agentic的机器人模型:在一个模型里自带去收集上下文、遵循清单、生成动作、自我验证的能动性。
💡#4
@bqbrady
https://x.com/bqbrady/status/2067009533030084951
帖子里最有用的怀疑者。他几个月前就试过搭一个像ENPIRE的系统、让机械臂下棋,分享了血换来的边界:任务重置那一步极难搭(有时跟任务本身一样难),大多数LLM的3D理解很弱、会砸坏物体或把夹爪怼穿地面,Claude还经常把机械臂搞到无效状态、然后花10到20分钟自救。他的结论:今天的模型还不足以"设好就不管"地爬山,但脚手架够多的话,你能让它学起来。
💡#5
@SOntheotherside
https://x.com/SOntheotherside/status/2066912290369102131
一次难得诚实的记录,讲无人监督地跑autoresearch日常到底是什么感觉。他最长、最容易的目标就是用minimax(或任何模型)做autoresearch,能无人值守跑5个多小时;更难的任务他不完全信任,会扫一眼成果、抓死循环、卡住或语义bug。一个目标可以从10分钟跨到好几天,全部由AI完成。他甚至撞上了真实的失败模式——一个语义工作流bug,agent只部分实现了计划,把0.2秒的校验拖成了45秒。
💡#6
@arora_mrinaal
https://x.com/arora_mrinaal/status/2066758628405871097
今天的token经济学案例。他把autoresearch循环换到DeepSeek v4 Pro,纯粹是因为Codex的限额和API成本,而数字很惊人:过去48小时里近3700万token,其中可计费的输入token有95.78%是缓存命中,总成本估计0.969美元。这是一个几乎不停跑的autoresearch循环,花不到一美元——一个具体的证明:缓存加更便宜的后端,能让这个循环真正负担得起。
💡#7
@THUTeamEureka
https://x.com/THUTeamEureka/status/2066911229785112932
一个值得知道的新开源autoresearch工具:EurekAgent,面向指标驱动任务的agent。你给它一个问题、一个评估器和一份预算,它就编排多个Claude Code会话去提出、测试、并在一个有界沙盒里突破当前SOTA,评估安全、控制权在你手里。免费且开源。这就是"给它一个指标和预算、让它自己爬"那套模式,被打包成别人也能跑的东西。
💡#8
@jonasgeiping
https://x.com/jonasgeiping/status/2066924718892924948
一个带尖锐转折的autoresearch结果。他更新了Claudini——一个让agent自主改进越狱算法的autoresearch装置——并报告Kimi-2.6已经完全追上、在这个任务上超过了Opus 4.6。Kimi 2.6原来是个又强又执着的攻击者。撇开模型排名这个噱头,它干净地示范了一件事:把一个自主改进循环当成一把活的标尺,去衡量不同模型能多么不知疲倦地自我优化一个对抗目标。
💡#9
@alokbishoyi97
https://x.com/alokbishoyi97/status/2066930050952507656
一个提醒:autoresearch工具不只来自大厂。回应ENPIRE时,这位开发者说自己也一直在折腾autoresearch、并开源了一个auto-research编排器,使用量已经相当可观——超过2万名开发者。他特别好奇它在机器人领域扛不扛得住,因为那个圈子里用过的人很少。作为快速生长的开源autoresearch编排器生态的一部分,值得关注。
💡#10
@editxshub
https://x.com/editxshub/status/2066849823777841206
一句利落的提炼,讲那个只要你拼起来就已经存在的"过夜autoresearch"工作流:你的新角色是写program.md,剩下的agent全包。Firecrawl拉论文并转成LLM可读的数据,AutoResearch过夜跑实验、大约每小时12个(你睡觉时跑约100个),Claude再综合出到底什么真的改进了模型。你写方向,agent跑循环,你醒来看结果。大多数人只是还没把这条流水线拼起来而已。
💡#11
@mdeng34
https://x.com/mdeng34/status/2066959806393700552
一个值得和ENPIRE对照着读、想得很清楚的反方立场。他同意机器人训练决策的很大一部分该交给autoresearch,但主张真正的开放问题在于:训练在什么环境里发生,以及怎么决定何时训练、何时部署、何时重训。他们组的押注是:完全自主的agent应该在一个基于世界模型的模拟器里递归自我改进、以捕捉变化因子,再由一个学出来的"配置器"决定何时训练、何时服务。细节在他们的"Critique of Agent Model"论文里。
💡#12
@zhodonx
https://x.com/zhodonx/status/2066881957112283529
这一波里把agentic loop从入门讲到能动手的最清楚的一篇。开头引了Claude Code作者那句——"我不再给Claude写prompt了,我的活是写循环"——然后摆出解剖结构:输出变输入、走五个阶段(发现、计划、执行、验证、迭代),而一个真正的循环需要四件东西:一个机器能打分的、写下来的停止条件;一个独立的检查者(干活的agent永远不批自己的作业);记忆,好让第47次跑知道第1到46次试过什么;隔离,好让并行的agent不互相覆盖。循环之所以存在,是因为一个agent在长会话里会偷懒、会手软地给自己打分、会漂移。
💡#13
@analogalok
https://x.com/analogalok/status/2067023350866796962
一个硬件遇上agent、还带真实架构启示的实验。他在8GB显存的游戏本上跑满了一个31B稠密模型(Gemma 4),约3 tok/s——聊天太慢,但他主张慢不等于没用。模式是:一个快速的编排模型(26B的MoE,25+ tok/s)负责路由、简单查询、工具调用和记忆——相当于初级开发——而31B稠密模型是高级工程师,只在快模型在硬推理上撞墙时才被调用。agentic循环保持快,只有难的那几跳才碰大模型。外加过夜批处理、以及那种输出质量胜过速度的静默后台代码审计循环。
💡#14
@stagedhappen
https://x.com/stagedhappen/status/2066933841638691105
对一个根本性的agentic-loop缺陷给出的具体修法:大多数agent循环是盲的,一旦agent需要一个它造不出来的资源就崩。DotCode把act-observe两半都重构了。Observe现在是渲染、不是读取——它把页面画出来、刷新、对着上次改动的真实视觉结果工作,而不是对着一行描述它的日志。Act现在是生成式的——前端引用一个还不存在的媒体时,它在循环里就把这个资源合成出来、而不是卡死;整个循环还封在他们的隐私边界内、没有第三方外泄。
💡#15
@b12
https://x.com/b12/status/2066971438968631526
一个有用的市场快照,显示大家实际在跑哪些loop。他们目录里现在最热的是:Superpowers(头脑风暴、TDD、子agent驱动的开发循环)、Hermes Agent(一个带记忆的自我改进agent)、autoresearch(过夜跑实验、只保留有效的)、learn-claude-code(一个约30行的agent harness,"有bash就够了")。这是一张小却说明问题的地图,标出loop生态的注意力落在哪——一半是编程工作流,一半是自主改进循环。
💡#16
@hugobowne
https://x.com/hugobowne/status/2066686628077473819
autoresearch炒作所需要的那个唱反调的声音。他花10小时采访了16位他信任的Python、数据、ML和AI开发者,问他们到底在用什么,发现他们痴迷的是验证、记忆、审查、个人软件和工作流设计——而对蜂群、自主循环、agent框架痴迷得少得多。"忘掉agent skill,忘掉子agent,忘掉OpenClaw,忘掉autoresearch,忘掉ralph循环,"他写道,然后指向认真做事的人反复回到的东西。一个健康的现实校验,提醒别以为人人都在跑过夜循环。
📡 生态产品雷达
生态产品雷达
ENPIRE —— 英伟达GEAR的物理autoresearch harness;8个Codex agent驱动一支真实机器人编队、无人参与。
autoresearch(Karpathy)—— 那套过夜实验循环模式,现在被所有人往各处移植,包括机器人和定性科学。
EurekAgent —— 开源的autoresearch agent,编排多个Claude Code会话、在指标驱动任务上突破SOTA。
Claudini —— 让agent自主改进越狱算法的autoresearch装置,现在被用来给模型做基准(Kimi-2.6对Opus 4.6)。
DeepSeek v4 Pro —— 便宜、缓存命中极高的后端,让持续循环只花几美分。
Firecrawl —— 把论文转成LLM可读数据,喂给program.md到过夜实验的流水线。
Superpowers / Hermes Agent —— 开放目录里被跑得最多的loop(开发循环;带记忆的自我改进agent)。
← 上一篇
超级用户日报: 2026年6月18日
下一篇 →
灵感雷达: 2026年6月18日
← 返回所有文章

评论

加载中...
>_