2026年6月18日loop

Loop 日报: 2026年6月19日

如果今天只有一个故事，那就是autoresearch从比特跨进原子。英伟达的ENPIRE主导了话题——把机群式agentic autoresearch放到真实机器人上，而最难的工程是你按下回车之前的一切：两层安全约束让8个机器人能过夜无人值守地跑，冻结的奖励定义让机群没法钻自己的空子。与此同时，一个AutoResearch agent自主规划GPU实验、在一个285B模型上零人工介入地跑了真实RL，还有人烧了两周7×24的token，把一台本地推理机从14 tok/s推到100 tok/s以上。今天的另一半，是关于"到底什么让循环奏效"的安静共识：不是循环本身，是它底下的harness——那些子agent、确定性钩子、让下一次运行续跑而不是重启的状态文件。而这个循环不断从软件里逃逸出去，进了报税、太阳能板优化、和机器人。

💡#1

@victor207755822
https://x.com/victor207755822/status/2067259098584985954
今天最强的autoresearch案例。他们开源了Deli AutoResearch skill，并且第一次让自己的AutoResearch Agent自主规划GPU实验、在DeepSeek 285B模型上提交了真实的RL（GRPO）训练。整条RL流水线——实验设计、写代码、运行、debug、总结结论——100%自动化、零人工介入。这就是"token即智能"在前沿的样子：一个agent烧着可观的算力，在一个285B模型上跑真正研究级别的RL，再自己把发现写出来。

💡#2

@DrJimFan
https://x.com/DrJimFan/status/2067283904986517866
物理autoresearch的幕后工程之旅，难的全在你按下回车之前。让8个机器人过夜无人值守地跑，意味着安全不能只是system prompt里的一句提示，所以ENPIRE把它硬编码进两层：一个硬性运动学限制，机器人一离开安全包络就立即判任务失败并自动复位；外加一个限扭矩的柔顺夹爪应对坏接触。奖励和"完成"的定义是冻结的——他们采集示范、让一个agent写CV分类器、对着groundtruth爬坡、然后锁死，这样整个机群没法钻自己奖励的空子。这是autoresearch从比特跨进原子。

💡#3

@GuanyaShi
https://x.com/GuanyaShi/status/2067077863061533172
今天最清晰的方法论陈述。把那些时髦词剥掉——递归自我改进、autoresearch、靠迭代变强的agent——底下就一个模式：一旦一个领域有了可重复的反馈循环，agent就能提出、测试、观察、修订。这就是为什么游戏、ML实验、GPU内核、代码库和证明搜索越来越能被agent解决。机器人是这个故事断掉的地方：在数字世界里"跑实验"是一条命令，但物理的一次rollout意味着复位场景、安全执行、验证结果、再优化。ENPIRE整个赌注就是把那个物理反馈循环建起来。

💡#4

@letian_fu
https://x.com/letian_fu/status/2067132813108007279
ENPIRE的发布本身：机群式的agentic autoresearch撞上物理世界。在一系列精密操作任务上，一队队编程agent用启发式学习、行为克隆和强化学习自主爬升性能。但真正要紧的提法是：编程agent驱动的是整个研究循环，不只是算法搜索——读文献、提算法、建复位和验证机制、设计奖励、改进训练基础设施、跑真实世界实验。AGI去建物理AGI，闭环从头到尾。

💡#5

@chris_j_paxton
https://x.com/chris_j_paxton/status/2067072289221533828
一句话的提炼，很到位：用code-as-policies做autoresearch。一个LLM agent写代码、直接在真实机器人上测——因为机器人说到底就是真实世界里的软件。它用一句话装下了物理autoresearch那套写-测-迭代的闭环方法论，也是整个ENPIRE式路线转动的概念枢纽：如果你的策略就是代码，那改进机器人就是那个对软件早就奏效的写-测-改循环。

💡#6

@antiochrobotics
https://x.com/antiochrobotics/status/2067265908012155065
第二支队伍从另一个角度押同一块地：autoresearch是物理自主的未来。他们在建那个仿真层，让agent在闭环里对整个机器人栈做迭代。ENPIRE是过夜跑物理机群，这家则押注仿真当底座——让"提出-测试-验证-优化"的循环在碰硬件之前先廉价、大规模地跑起来。两个独立团队在同一天收敛到"给机器人闭环"，这个信号值得记一笔。

💡#7

@askalphaxiv
https://x.com/askalphaxiv/status/2067271046517154035
一个真正有用的autoresearch工具落地了，不只是嘴上说。alphaXiv现在部署autoresearch agent去吃下热门arXiv仓库、解决那些出了名痛苦的环境和依赖问题、把论文的核心claim真正跑起来——于是你能按"易实现度"给论文排序。这是把autoresearch对准了可复现性，那个不起眼、却比几乎任何东西都更浪费研究者工时的瓶颈。一个能把"代码在GitHub上"变成"claim能跑"的agent，价值很安静但很实。

💡#8

@justALEXWORTEGA
https://x.com/justALEXWORTEGA/status/2067222840701591703
一个有实证的autoresearch循环结果。他用一个可验证的奖励（这才是关键诀窍）对Qwen-35B-A3做了PPO，再让它过Karpathy的autoresearch + parameter-golf循环，他说它打败了GLM-5.2和Qwen-350B、生成Opus级别的点子、在一个"bullshit-bench"上压过NEX和GPT-5.5。模型和GGUF都放出来了，还带一个ZeroGPU上的实时demo。有意思的不是榜单上的吹嘘——而是一个小模型经过一轮迭代式自我改进循环之后，打出了超出自己体量的拳。

💡#9

@MTSlive
https://x.com/MTSlive/status/2067298871144009801
非编码autoresearch案例里前后对比最干净的一个。OpenAI的Arthur Fernandes和John de Wasseige描述了一个自我改进agent（Codex）接管报税：以前报税员要花约8小时的报表，今年只要约30分钟。这个agent从一堆PDF、Excel表和手写笔记里提取并归并复杂数据、做计算、交叉核对数值——把审核者解放出来，只盯那些真正难的字段。在一个高技能、高责任的专业任务上做到16倍压缩，正是这个循环本该释放的那类价值。

💡#10

@xyster
https://x.com/xyster/status/2067305659675377800
这一批里最纯粹的100X token数据点。他用GPT-5.5跑了个7×24的auto-research循环，把4块跑Minimax m2.7的Intel B70从14 tok/s拉到100 tok/s以上的解码速率——7倍提升——而且他对成本毫不含糊："花了两周的7×24 auto research。那是好多token！！"他甚至给循环本身做了基准，提到Fable和GPT Pro快得多、GLM 5.2也能跑但慢。这就是那个论点的物理证据：两周不间断的token投入，换来了7倍的硬件级提速。

💡#11

@dunik_7
https://x.com/dunik_7/status/2067173387667980496
今天最犀利的"循环 vs harness"论证。所有人都在谈循环，几乎没人谈循环跑在什么上面。十个搭建者里九个用默认harness跑Claude Code——没规则、没子agent、没钩子、没记忆——然后纳闷自己的循环为啥产出垃圾，因为坏harness上的循环只是更快地造垃圾。他把harness拆成四样东西，并点出让循环产生复利的具体零件：一个有全新上下文窗口的reviewer子agent、能拦住危险调用的确定性钩子、以及一个agent开头读、结尾写的状态文件，好让下一次运行是续跑而不是重启。

💡#12

@HarryTandy
https://x.com/HarryTandy/status/2067243818189996279
一个具体的8步生产级agent循环配方，用黄仁勋那句话开场：你给AI编程就像给人编程——一个开着40本手册的人会变慢，正如一个挂着40个工具schema的agent会开始做奇怪的调用。配方是：一张带完成条件的job card、工作记忆文件（scratchpad、decisions、open_questions）、一个输入过滤器和一个只浮出3到5个工具的工具过滤器、把每个结果变成来源/发现/决策/下一步的输出回执、在research/plan/build之间做阶段重置、外加一道verifier。这是一个真模板，能让一个长跑的agent循环在第15步之后还保持连贯。

💡#13

@7h3h4ckv157
https://x.com/7h3h4ckv157/status/2067218182470004891
对Nous Research的Hermes及其内置学习循环的干净描述——是什么让"自我改进"agent不只是个口号。它从经验里创建skill、在使用中打磨它们、自我推动去固化知识、检索自己过往的对话、跨会话建立一个越来越深的"你是谁"的模型。部署故事也要紧：在5美元的VPS、GPU集群、或闲时近乎免费的serverless上跑，不绑在你的笔记本上——你在手机Telegram上跟它说话、它在云VM上干活。学习循环加上永远在线的脱离，就是它全部的卖点。

💡#14

@ShinkaIoT
https://x.com/ShinkaIoT/status/2067074110522536298
一篇建在Hermes加Claude Code上的"Loop Engineering"方法论，给了个有用的区分。确定性循环用于"完成"是绝对的任务——修bug、编译、部署——所以你跑测试脚本直到100%通过、再用GitHub CLI自动commit。非确定性循环用于UI和判断类任务，跑成一个builder-verifier的对抗结构、配一个"AI Slop Detector"。他摆出了一套具体的五阶段循环架构，把行业的转变定义为从prompt engineering转向loop engineering，由Hermes这样永远在线的agent自动化整个开发周期。

💡#15

@RileyRalmuto
https://x.com/RileyRalmuto/status/2067082186096796135
一瞥桌面端"编排即autoresearch"。Polyphonic for Mac现在让你用大白话说："扇出6个专门的研究agent去深挖递归自我改进架构、循环和harness，让每个写洞察报告，然后生成一个带你综合的HTML页面。"你看着它建agent、部署它们、跟踪每个的实时活动时间线、最后拿到一份在画布里渲染的综合报告，含行动计划和下一步。这是把多agent研究扇出的模式，打包成了一个消费级的Mac应用。

💡#16

@luckeyfaraday
https://x.com/luckeyfaraday/status/2067360145592516798
一个不大但诚实的、针对循环本身的A/B。他把agent循环的概念做成了一个正经的开源仓库，用MiMo-V2.5搭了个FPS游戏来测，用的是orchestrator → worker → reviewer的循环。跑循环的版本明显优于裸MiMo。这正是这个领域需要更多的那种受控对比——同一个底座模型、有循环脚手架和没有的对照——而且仓库公开，别人能去核对这个说法。

💡#17

@Vemaster
https://x.com/Vemaster/status/2067185170520612907
一个具体的、自建的、用于真实项目的agentic循环。他在Cursor里搭了个多agent循环——Research、Plan、Act、Verify——让它成为他们UE5项目的专家，现在还在探索一个面向Unreal Engine游戏开发、带深度编辑器集成的TDD自动化harness-router。这是个好例子：循环模式被适配到一个具体而难啃的领域（重型引擎上的游戏开发），而不是常见的网页应用demo，而且验证从一开始就被建进了循环。

💡#18

@anshulcreates
https://x.com/anshulcreates/status/2067127815200235892
一个简短却扎眼的非编码autoresearch案例。他说自己一直在用autoresearch迭代地让商用太阳能板更高效——现在被物理autoresearch方向（ENPIRE）点燃，问怎么参与进来。这是一个数据点：autoresearch循环已经在从软件逃逸进硬科学和硬件优化，落在那些说自己愿意做这种研究做一辈子的人手里。循环作为面向物理世界的研究仪器。

💡#19

@punchtaylor
https://x.com/punchtaylor/status/2067326371144081423
对一个自我改进agent框架的动手活，不是评论。他给Nous Research的hermes-agent开了五个PR，包括一个默认只做观测的MQTT平台适配器——事件记到文件、不为每条消息起一个agent循环，灵感来自一个第一次切换时差点搞垮他mesh的反馈循环——以及一个"hermes mesh"机群供应CLI，把他一直在跑的9节点模式固化下来，外加一个把视频转成结构化JSON的streaming-content skill。这就是一个人真的在运营一群自我改进agent、并把磨出来的毛刺贡献回上游的样子。

💡#20

@enesakar
https://x.com/enesakar/status/2067344775754260865
一个具体的agent循环作品，关注点分离得很干净。他们做了"Ask HackerNews"，一个从真实HN数据回答问题的agent，由Vercel Eve负责agent循环、Upstash Redis Search负责检索。这是"框架拥有循环"这一新兴模式的一个小而可发布的例子——你带数据和问题，harness管那个持久的agent循环，一个专门的搜索层做查找。这种作品说明，循环框架已经真实到可以拿来发产品了。

💡#21

@zeewasd
https://x.com/zeewasd/status/2067099434475991494
一个新项目，在抢"操作层"这个位置。Rudder是一个面向自我改进agent团队的开源操作层——帮agent学习人类品味、做长短期规划、接受审查、跨多次运行变好。它还早、在征求反馈，但这个提法值得注意：有意思的问题正在往上挪一层，从单个agent的循环，挪到协调一队随时间变好的agent，而它们要学着对齐的，是人类的品味。这是迅速填满的"agent机群操作层"品类里的又一个入场者。

📡 生态产品雷达

生态产品雷达
ENPIRE（英伟达）—— 今天的定义级项目：面向真实机器人的机群式agentic autoresearch，带两层安全约束和冻结奖励设计。
Hermes / hermes-agent（Nous Research）—— 带内置学习循环的自我改进agent，从5美元VPS到机群到处部署；这一批里被贡献最多的框架。
Vercel eve —— "agent界的Next.js"，拥有agent循环的harness（持久会话、沙箱、子agent、evals），已经在产出像Ask HackerNews这样的真实作品。
Claude Code —— 大家拿来搭循环和Loop Engineering方案的默认harness。
GLM-5.2 / Qwen / MiMo —— 大家把autoresearch和循环实验指向的开源权重模型。
Karpathy的autoresearch + parameter-golf —— 大家拿小模型去过的那个迭代式自我改进循环。

← 上一篇

超级用户日报: 2026年6月19日

灵感雷达: 2026年6月19日

← 返回所有文章

加载中...

Loop 日报: 2026年6月19日

相关文章

评论