Loop 日报: 2026年6月19日
如果今天只有一个故事,那就是autoresearch从比特跨进原子。英伟达的ENPIRE主导了话题——把机群式agentic autoresearch放到真实机器人上,而最难的工程是你按下回车之前的一切:两层安全约束让8个机器人能过夜无人值守地跑,冻结的奖励定义让机群没法钻自己的空子。与此同时,一个AutoResearch agent自主规划GPU实验、在一个285B模型上零人工介入地跑了真实RL,还有人烧了两周7×24的token,把一台本地推理机从14 tok/s推到100 tok/s以上。今天的另一半,是关于"到底什么让循环奏效"的安静共识:不是循环本身,是它底下的harness——那些子agent、确定性钩子、让下一次运行续跑而不是重启的状态文件。而这个循环不断从软件里逃逸出去,进了报税、太阳能板优化、和机器人。
#1
@victor207755822
https://x.com/victor207755822/status/2067259098584985954
今天最强的autoresearch案例。他们开源了Deli AutoResearch skill,并且第一次让自己的AutoResearch Agent自主规划GPU实验、在DeepSeek 285B模型上提交了真实的RL(GRPO)训练。整条RL流水线——实验设计、写代码、运行、debug、总结结论——100%自动化、零人工介入。这就是"token即智能"在前沿的样子:一个agent烧着可观的算力,在一个285B模型上跑真正研究级别的RL,再自己把发现写出来。
https://x.com/victor207755822/status/2067259098584985954
今天最强的autoresearch案例。他们开源了Deli AutoResearch skill,并且第一次让自己的AutoResearch Agent自主规划GPU实验、在DeepSeek 285B模型上提交了真实的RL(GRPO)训练。整条RL流水线——实验设计、写代码、运行、debug、总结结论——100%自动化、零人工介入。这就是"token即智能"在前沿的样子:一个agent烧着可观的算力,在一个285B模型上跑真正研究级别的RL,再自己把发现写出来。
#2
@DrJimFan
https://x.com/DrJimFan/status/2067283904986517866
物理autoresearch的幕后工程之旅,难的全在你按下回车之前。让8个机器人过夜无人值守地跑,意味着安全不能只是system prompt里的一句提示,所以ENPIRE把它硬编码进两层:一个硬性运动学限制,机器人一离开安全包络就立即判任务失败并自动复位;外加一个限扭矩的柔顺夹爪应对坏接触。奖励和"完成"的定义是冻结的——他们采集示范、让一个agent写CV分类器、对着groundtruth爬坡、然后锁死,这样整个机群没法钻自己奖励的空子。这是autoresearch从比特跨进原子。
https://x.com/DrJimFan/status/2067283904986517866
物理autoresearch的幕后工程之旅,难的全在你按下回车之前。让8个机器人过夜无人值守地跑,意味着安全不能只是system prompt里的一句提示,所以ENPIRE把它硬编码进两层:一个硬性运动学限制,机器人一离开安全包络就立即判任务失败并自动复位;外加一个限扭矩的柔顺夹爪应对坏接触。奖励和"完成"的定义是冻结的——他们采集示范、让一个agent写CV分类器、对着groundtruth爬坡、然后锁死,这样整个机群没法钻自己奖励的空子。这是autoresearch从比特跨进原子。
#3
@GuanyaShi
https://x.com/GuanyaShi/status/2067077863061533172
今天最清晰的方法论陈述。把那些时髦词剥掉——递归自我改进、autoresearch、靠迭代变强的agent——底下就一个模式:一旦一个领域有了可重复的反馈循环,agent就能提出、测试、观察、修订。这就是为什么游戏、ML实验、GPU内核、代码库和证明搜索越来越能被agent解决。机器人是这个故事断掉的地方:在数字世界里"跑实验"是一条命令,但物理的一次rollout意味着复位场景、安全执行、验证结果、再优化。ENPIRE整个赌注就是把那个物理反馈循环建起来。
https://x.com/GuanyaShi/status/2067077863061533172
今天最清晰的方法论陈述。把那些时髦词剥掉——递归自我改进、autoresearch、靠迭代变强的agent——底下就一个模式:一旦一个领域有了可重复的反馈循环,agent就能提出、测试、观察、修订。这就是为什么游戏、ML实验、GPU内核、代码库和证明搜索越来越能被agent解决。机器人是这个故事断掉的地方:在数字世界里"跑实验"是一条命令,但物理的一次rollout意味着复位场景、安全执行、验证结果、再优化。ENPIRE整个赌注就是把那个物理反馈循环建起来。
#4
@letian_fu
https://x.com/letian_fu/status/2067132813108007279
ENPIRE的发布本身:机群式的agentic autoresearch撞上物理世界。在一系列精密操作任务上,一队队编程agent用启发式学习、行为克隆和强化学习自主爬升性能。但真正要紧的提法是:编程agent驱动的是整个研究循环,不只是算法搜索——读文献、提算法、建复位和验证机制、设计奖励、改进训练基础设施、跑真实世界实验。AGI去建物理AGI,闭环从头到尾。
https://x.com/letian_fu/status/2067132813108007279
ENPIRE的发布本身:机群式的agentic autoresearch撞上物理世界。在一系列精密操作任务上,一队队编程agent用启发式学习、行为克隆和强化学习自主爬升性能。但真正要紧的提法是:编程agent驱动的是整个研究循环,不只是算法搜索——读文献、提算法、建复位和验证机制、设计奖励、改进训练基础设施、跑真实世界实验。AGI去建物理AGI,闭环从头到尾。
#5
@chris_j_paxton
https://x.com/chris_j_paxton/status/2067072289221533828
一句话的提炼,很到位:用code-as-policies做autoresearch。一个LLM agent写代码、直接在真实机器人上测——因为机器人说到底就是真实世界里的软件。它用一句话装下了物理autoresearch那套写-测-迭代的闭环方法论,也是整个ENPIRE式路线转动的概念枢纽:如果你的策略就是代码,那改进机器人就是那个对软件早就奏效的写-测-改循环。
https://x.com/chris_j_paxton/status/2067072289221533828
一句话的提炼,很到位:用code-as-policies做autoresearch。一个LLM agent写代码、直接在真实机器人上测——因为机器人说到底就是真实世界里的软件。它用一句话装下了物理autoresearch那套写-测-迭代的闭环方法论,也是整个ENPIRE式路线转动的概念枢纽:如果你的策略就是代码,那改进机器人就是那个对软件早就奏效的写-测-改循环。
#6
@antiochrobotics
https://x.com/antiochrobotics/status/2067265908012155065
第二支队伍从另一个角度押同一块地:autoresearch是物理自主的未来。他们在建那个仿真层,让agent在闭环里对整个机器人栈做迭代。ENPIRE是过夜跑物理机群,这家则押注仿真当底座——让"提出-测试-验证-优化"的循环在碰硬件之前先廉价、大规模地跑起来。两个独立团队在同一天收敛到"给机器人闭环",这个信号值得记一笔。
https://x.com/antiochrobotics/status/2067265908012155065
第二支队伍从另一个角度押同一块地:autoresearch是物理自主的未来。他们在建那个仿真层,让agent在闭环里对整个机器人栈做迭代。ENPIRE是过夜跑物理机群,这家则押注仿真当底座——让"提出-测试-验证-优化"的循环在碰硬件之前先廉价、大规模地跑起来。两个独立团队在同一天收敛到"给机器人闭环",这个信号值得记一笔。
#7
@askalphaxiv
https://x.com/askalphaxiv/status/2067271046517154035
一个真正有用的autoresearch工具落地了,不只是嘴上说。alphaXiv现在部署autoresearch agent去吃下热门arXiv仓库、解决那些出了名痛苦的环境和依赖问题、把论文的核心claim真正跑起来——于是你能按"易实现度"给论文排序。这是把autoresearch对准了可复现性,那个不起眼、却比几乎任何东西都更浪费研究者工时的瓶颈。一个能把"代码在GitHub上"变成"claim能跑"的agent,价值很安静但很实。
https://x.com/askalphaxiv/status/2067271046517154035
一个真正有用的autoresearch工具落地了,不只是嘴上说。alphaXiv现在部署autoresearch agent去吃下热门arXiv仓库、解决那些出了名痛苦的环境和依赖问题、把论文的核心claim真正跑起来——于是你能按"易实现度"给论文排序。这是把autoresearch对准了可复现性,那个不起眼、却比几乎任何东西都更浪费研究者工时的瓶颈。一个能把"代码在GitHub上"变成"claim能跑"的agent,价值很安静但很实。
#8
@justALEXWORTEGA
https://x.com/justALEXWORTEGA/status/2067222840701591703
一个有实证的autoresearch循环结果。他用一个可验证的奖励(这才是关键诀窍)对Qwen-35B-A3做了PPO,再让它过Karpathy的autoresearch + parameter-golf循环,他说它打败了GLM-5.2和Qwen-350B、生成Opus级别的点子、在一个"bullshit-bench"上压过NEX和GPT-5.5。模型和GGUF都放出来了,还带一个ZeroGPU上的实时demo。有意思的不是榜单上的吹嘘——而是一个小模型经过一轮迭代式自我改进循环之后,打出了超出自己体量的拳。
https://x.com/justALEXWORTEGA/status/2067222840701591703
一个有实证的autoresearch循环结果。他用一个可验证的奖励(这才是关键诀窍)对Qwen-35B-A3做了PPO,再让它过Karpathy的autoresearch + parameter-golf循环,他说它打败了GLM-5.2和Qwen-350B、生成Opus级别的点子、在一个"bullshit-bench"上压过NEX和GPT-5.5。模型和GGUF都放出来了,还带一个ZeroGPU上的实时demo。有意思的不是榜单上的吹嘘——而是一个小模型经过一轮迭代式自我改进循环之后,打出了超出自己体量的拳。
#9
@MTSlive
https://x.com/MTSlive/status/2067298871144009801
非编码autoresearch案例里前后对比最干净的一个。OpenAI的Arthur Fernandes和John de Wasseige描述了一个自我改进agent(Codex)接管报税:以前报税员要花约8小时的报表,今年只要约30分钟。这个agent从一堆PDF、Excel表和手写笔记里提取并归并复杂数据、做计算、交叉核对数值——把审核者解放出来,只盯那些真正难的字段。在一个高技能、高责任的专业任务上做到16倍压缩,正是这个循环本该释放的那类价值。
https://x.com/MTSlive/status/2067298871144009801
非编码autoresearch案例里前后对比最干净的一个。OpenAI的Arthur Fernandes和John de Wasseige描述了一个自我改进agent(Codex)接管报税:以前报税员要花约8小时的报表,今年只要约30分钟。这个agent从一堆PDF、Excel表和手写笔记里提取并归并复杂数据、做计算、交叉核对数值——把审核者解放出来,只盯那些真正难的字段。在一个高技能、高责任的专业任务上做到16倍压缩,正是这个循环本该释放的那类价值。
#10
@xyster
https://x.com/xyster/status/2067305659675377800
这一批里最纯粹的100X token数据点。他用GPT-5.5跑了个7×24的auto-research循环,把4块跑Minimax m2.7的Intel B70从14 tok/s拉到100 tok/s以上的解码速率——7倍提升——而且他对成本毫不含糊:"花了两周的7×24 auto research。那是好多token!!"他甚至给循环本身做了基准,提到Fable和GPT Pro快得多、GLM 5.2也能跑但慢。这就是那个论点的物理证据:两周不间断的token投入,换来了7倍的硬件级提速。
https://x.com/xyster/status/2067305659675377800
这一批里最纯粹的100X token数据点。他用GPT-5.5跑了个7×24的auto-research循环,把4块跑Minimax m2.7的Intel B70从14 tok/s拉到100 tok/s以上的解码速率——7倍提升——而且他对成本毫不含糊:"花了两周的7×24 auto research。那是好多token!!"他甚至给循环本身做了基准,提到Fable和GPT Pro快得多、GLM 5.2也能跑但慢。这就是那个论点的物理证据:两周不间断的token投入,换来了7倍的硬件级提速。
#11
@dunik_7
https://x.com/dunik_7/status/2067173387667980496
今天最犀利的"循环 vs harness"论证。所有人都在谈循环,几乎没人谈循环跑在什么上面。十个搭建者里九个用默认harness跑Claude Code——没规则、没子agent、没钩子、没记忆——然后纳闷自己的循环为啥产出垃圾,因为坏harness上的循环只是更快地造垃圾。他把harness拆成四样东西,并点出让循环产生复利的具体零件:一个有全新上下文窗口的reviewer子agent、能拦住危险调用的确定性钩子、以及一个agent开头读、结尾写的状态文件,好让下一次运行是续跑而不是重启。
https://x.com/dunik_7/status/2067173387667980496
今天最犀利的"循环 vs harness"论证。所有人都在谈循环,几乎没人谈循环跑在什么上面。十个搭建者里九个用默认harness跑Claude Code——没规则、没子agent、没钩子、没记忆——然后纳闷自己的循环为啥产出垃圾,因为坏harness上的循环只是更快地造垃圾。他把harness拆成四样东西,并点出让循环产生复利的具体零件:一个有全新上下文窗口的reviewer子agent、能拦住危险调用的确定性钩子、以及一个agent开头读、结尾写的状态文件,好让下一次运行是续跑而不是重启。
#12
@HarryTandy
https://x.com/HarryTandy/status/2067243818189996279
一个具体的8步生产级agent循环配方,用黄仁勋那句话开场:你给AI编程就像给人编程——一个开着40本手册的人会变慢,正如一个挂着40个工具schema的agent会开始做奇怪的调用。配方是:一张带完成条件的job card、工作记忆文件(scratchpad、decisions、open_questions)、一个输入过滤器和一个只浮出3到5个工具的工具过滤器、把每个结果变成来源/发现/决策/下一步的输出回执、在research/plan/build之间做阶段重置、外加一道verifier。这是一个真模板,能让一个长跑的agent循环在第15步之后还保持连贯。
https://x.com/HarryTandy/status/2067243818189996279
一个具体的8步生产级agent循环配方,用黄仁勋那句话开场:你给AI编程就像给人编程——一个开着40本手册的人会变慢,正如一个挂着40个工具schema的agent会开始做奇怪的调用。配方是:一张带完成条件的job card、工作记忆文件(scratchpad、decisions、open_questions)、一个输入过滤器和一个只浮出3到5个工具的工具过滤器、把每个结果变成来源/发现/决策/下一步的输出回执、在research/plan/build之间做阶段重置、外加一道verifier。这是一个真模板,能让一个长跑的agent循环在第15步之后还保持连贯。
#13
@7h3h4ckv157
https://x.com/7h3h4ckv157/status/2067218182470004891
对Nous Research的Hermes及其内置学习循环的干净描述——是什么让"自我改进"agent不只是个口号。它从经验里创建skill、在使用中打磨它们、自我推动去固化知识、检索自己过往的对话、跨会话建立一个越来越深的"你是谁"的模型。部署故事也要紧:在5美元的VPS、GPU集群、或闲时近乎免费的serverless上跑,不绑在你的笔记本上——你在手机Telegram上跟它说话、它在云VM上干活。学习循环加上永远在线的脱离,就是它全部的卖点。
https://x.com/7h3h4ckv157/status/2067218182470004891
对Nous Research的Hermes及其内置学习循环的干净描述——是什么让"自我改进"agent不只是个口号。它从经验里创建skill、在使用中打磨它们、自我推动去固化知识、检索自己过往的对话、跨会话建立一个越来越深的"你是谁"的模型。部署故事也要紧:在5美元的VPS、GPU集群、或闲时近乎免费的serverless上跑,不绑在你的笔记本上——你在手机Telegram上跟它说话、它在云VM上干活。学习循环加上永远在线的脱离,就是它全部的卖点。
#14
@ShinkaIoT
https://x.com/ShinkaIoT/status/2067074110522536298
一篇建在Hermes加Claude Code上的"Loop Engineering"方法论,给了个有用的区分。确定性循环用于"完成"是绝对的任务——修bug、编译、部署——所以你跑测试脚本直到100%通过、再用GitHub CLI自动commit。非确定性循环用于UI和判断类任务,跑成一个builder-verifier的对抗结构、配一个"AI Slop Detector"。他摆出了一套具体的五阶段循环架构,把行业的转变定义为从prompt engineering转向loop engineering,由Hermes这样永远在线的agent自动化整个开发周期。
https://x.com/ShinkaIoT/status/2067074110522536298
一篇建在Hermes加Claude Code上的"Loop Engineering"方法论,给了个有用的区分。确定性循环用于"完成"是绝对的任务——修bug、编译、部署——所以你跑测试脚本直到100%通过、再用GitHub CLI自动commit。非确定性循环用于UI和判断类任务,跑成一个builder-verifier的对抗结构、配一个"AI Slop Detector"。他摆出了一套具体的五阶段循环架构,把行业的转变定义为从prompt engineering转向loop engineering,由Hermes这样永远在线的agent自动化整个开发周期。
#15
@RileyRalmuto
https://x.com/RileyRalmuto/status/2067082186096796135
一瞥桌面端"编排即autoresearch"。Polyphonic for Mac现在让你用大白话说:"扇出6个专门的研究agent去深挖递归自我改进架构、循环和harness,让每个写洞察报告,然后生成一个带你综合的HTML页面。"你看着它建agent、部署它们、跟踪每个的实时活动时间线、最后拿到一份在画布里渲染的综合报告,含行动计划和下一步。这是把多agent研究扇出的模式,打包成了一个消费级的Mac应用。
https://x.com/RileyRalmuto/status/2067082186096796135
一瞥桌面端"编排即autoresearch"。Polyphonic for Mac现在让你用大白话说:"扇出6个专门的研究agent去深挖递归自我改进架构、循环和harness,让每个写洞察报告,然后生成一个带你综合的HTML页面。"你看着它建agent、部署它们、跟踪每个的实时活动时间线、最后拿到一份在画布里渲染的综合报告,含行动计划和下一步。这是把多agent研究扇出的模式,打包成了一个消费级的Mac应用。
#16
@luckeyfaraday
https://x.com/luckeyfaraday/status/2067360145592516798
一个不大但诚实的、针对循环本身的A/B。他把agent循环的概念做成了一个正经的开源仓库,用MiMo-V2.5搭了个FPS游戏来测,用的是orchestrator → worker → reviewer的循环。跑循环的版本明显优于裸MiMo。这正是这个领域需要更多的那种受控对比——同一个底座模型、有循环脚手架和没有的对照——而且仓库公开,别人能去核对这个说法。
https://x.com/luckeyfaraday/status/2067360145592516798
一个不大但诚实的、针对循环本身的A/B。他把agent循环的概念做成了一个正经的开源仓库,用MiMo-V2.5搭了个FPS游戏来测,用的是orchestrator → worker → reviewer的循环。跑循环的版本明显优于裸MiMo。这正是这个领域需要更多的那种受控对比——同一个底座模型、有循环脚手架和没有的对照——而且仓库公开,别人能去核对这个说法。
#17
@Vemaster
https://x.com/Vemaster/status/2067185170520612907
一个具体的、自建的、用于真实项目的agentic循环。他在Cursor里搭了个多agent循环——Research、Plan、Act、Verify——让它成为他们UE5项目的专家,现在还在探索一个面向Unreal Engine游戏开发、带深度编辑器集成的TDD自动化harness-router。这是个好例子:循环模式被适配到一个具体而难啃的领域(重型引擎上的游戏开发),而不是常见的网页应用demo,而且验证从一开始就被建进了循环。
https://x.com/Vemaster/status/2067185170520612907
一个具体的、自建的、用于真实项目的agentic循环。他在Cursor里搭了个多agent循环——Research、Plan、Act、Verify——让它成为他们UE5项目的专家,现在还在探索一个面向Unreal Engine游戏开发、带深度编辑器集成的TDD自动化harness-router。这是个好例子:循环模式被适配到一个具体而难啃的领域(重型引擎上的游戏开发),而不是常见的网页应用demo,而且验证从一开始就被建进了循环。
#18
@anshulcreates
https://x.com/anshulcreates/status/2067127815200235892
一个简短却扎眼的非编码autoresearch案例。他说自己一直在用autoresearch迭代地让商用太阳能板更高效——现在被物理autoresearch方向(ENPIRE)点燃,问怎么参与进来。这是一个数据点:autoresearch循环已经在从软件逃逸进硬科学和硬件优化,落在那些说自己愿意做这种研究做一辈子的人手里。循环作为面向物理世界的研究仪器。
https://x.com/anshulcreates/status/2067127815200235892
一个简短却扎眼的非编码autoresearch案例。他说自己一直在用autoresearch迭代地让商用太阳能板更高效——现在被物理autoresearch方向(ENPIRE)点燃,问怎么参与进来。这是一个数据点:autoresearch循环已经在从软件逃逸进硬科学和硬件优化,落在那些说自己愿意做这种研究做一辈子的人手里。循环作为面向物理世界的研究仪器。
#19
@punchtaylor
https://x.com/punchtaylor/status/2067326371144081423
对一个自我改进agent框架的动手活,不是评论。他给Nous Research的hermes-agent开了五个PR,包括一个默认只做观测的MQTT平台适配器——事件记到文件、不为每条消息起一个agent循环,灵感来自一个第一次切换时差点搞垮他mesh的反馈循环——以及一个"hermes mesh"机群供应CLI,把他一直在跑的9节点模式固化下来,外加一个把视频转成结构化JSON的streaming-content skill。这就是一个人真的在运营一群自我改进agent、并把磨出来的毛刺贡献回上游的样子。
https://x.com/punchtaylor/status/2067326371144081423
对一个自我改进agent框架的动手活,不是评论。他给Nous Research的hermes-agent开了五个PR,包括一个默认只做观测的MQTT平台适配器——事件记到文件、不为每条消息起一个agent循环,灵感来自一个第一次切换时差点搞垮他mesh的反馈循环——以及一个"hermes mesh"机群供应CLI,把他一直在跑的9节点模式固化下来,外加一个把视频转成结构化JSON的streaming-content skill。这就是一个人真的在运营一群自我改进agent、并把磨出来的毛刺贡献回上游的样子。
#20
@enesakar
https://x.com/enesakar/status/2067344775754260865
一个具体的agent循环作品,关注点分离得很干净。他们做了"Ask HackerNews",一个从真实HN数据回答问题的agent,由Vercel Eve负责agent循环、Upstash Redis Search负责检索。这是"框架拥有循环"这一新兴模式的一个小而可发布的例子——你带数据和问题,harness管那个持久的agent循环,一个专门的搜索层做查找。这种作品说明,循环框架已经真实到可以拿来发产品了。
https://x.com/enesakar/status/2067344775754260865
一个具体的agent循环作品,关注点分离得很干净。他们做了"Ask HackerNews",一个从真实HN数据回答问题的agent,由Vercel Eve负责agent循环、Upstash Redis Search负责检索。这是"框架拥有循环"这一新兴模式的一个小而可发布的例子——你带数据和问题,harness管那个持久的agent循环,一个专门的搜索层做查找。这种作品说明,循环框架已经真实到可以拿来发产品了。
#21
@zeewasd
https://x.com/zeewasd/status/2067099434475991494
一个新项目,在抢"操作层"这个位置。Rudder是一个面向自我改进agent团队的开源操作层——帮agent学习人类品味、做长短期规划、接受审查、跨多次运行变好。它还早、在征求反馈,但这个提法值得注意:有意思的问题正在往上挪一层,从单个agent的循环,挪到协调一队随时间变好的agent,而它们要学着对齐的,是人类的品味。这是迅速填满的"agent机群操作层"品类里的又一个入场者。
https://x.com/zeewasd/status/2067099434475991494
一个新项目,在抢"操作层"这个位置。Rudder是一个面向自我改进agent团队的开源操作层——帮agent学习人类品味、做长短期规划、接受审查、跨多次运行变好。它还早、在征求反馈,但这个提法值得注意:有意思的问题正在往上挪一层,从单个agent的循环,挪到协调一队随时间变好的agent,而它们要学着对齐的,是人类的品味。这是迅速填满的"agent机群操作层"品类里的又一个入场者。
📡 生态产品雷达
生态产品雷达
ENPIRE(英伟达)—— 今天的定义级项目:面向真实机器人的机群式agentic autoresearch,带两层安全约束和冻结奖励设计。
Hermes / hermes-agent(Nous Research)—— 带内置学习循环的自我改进agent,从5美元VPS到机群到处部署;这一批里被贡献最多的框架。
Vercel eve —— "agent界的Next.js",拥有agent循环的harness(持久会话、沙箱、子agent、evals),已经在产出像Ask HackerNews这样的真实作品。
Claude Code —— 大家拿来搭循环和Loop Engineering方案的默认harness。
GLM-5.2 / Qwen / MiMo —— 大家把autoresearch和循环实验指向的开源权重模型。
Karpathy的autoresearch + parameter-golf —— 大家拿小模型去过的那个迭代式自我改进循环。
ENPIRE(英伟达)—— 今天的定义级项目:面向真实机器人的机群式agentic autoresearch,带两层安全约束和冻结奖励设计。
Hermes / hermes-agent(Nous Research)—— 带内置学习循环的自我改进agent,从5美元VPS到机群到处部署;这一批里被贡献最多的框架。
Vercel eve —— "agent界的Next.js",拥有agent循环的harness(持久会话、沙箱、子agent、evals),已经在产出像Ask HackerNews这样的真实作品。
Claude Code —— 大家拿来搭循环和Loop Engineering方案的默认harness。
GLM-5.2 / Qwen / MiMo —— 大家把autoresearch和循环实验指向的开源权重模型。
Karpathy的autoresearch + parameter-golf —— 大家拿小模型去过的那个迭代式自我改进循环。
评论