2026年6月16日loop

Loop 日报: 2026年6月17日

今天的"循环"不再是口号，开始拿出收据。开放协作的autoresearch正在硬目标上跑赢闭门实验室——在Shor算法优化上超过谷歌、在压缩上超过SOFA——同时builder们把同一个Karpathy循环指向链上验证、prompt搜索、前端设计。最强的一条线是方法论：一个循环只和它的验证器一样好，你没法autoresearch你评估不了的东西，而一个自我改进的agent耐久程度只取决于它把经验写进哪个文件夹。在底下，LangGraph加DSPy的自我改进栈、以及自我改进知识库，正悄悄成为生产骨架，从Canva的AI功能到用一台iPad运营的一人公司。

💡#1

@0x10d9e
https://x.com/0x10d9e/status/2066341673081114843
一个跑在@eigenlabs上的开放式agentic autoresearch项目，目标是优化Shor算法，仅用两周就把谷歌最近的闭源电路方案超出了43%。借着这个势头，作者又发起了一个面向社区的新autoresearch项目，瞄准最先进的文件压缩——只提交了几次，就已经把SOFA超出7%。这干净地证明了：在有明确目标的硬问题上，开放协作的autoresearch循环能跑赢闭门实验室的结果。

💡#2

@Ravenattest
https://x.com/Ravenattest/status/2066530482574021102
把Andrej Karpathy的autoresearch循环拿来，指向一个它本不是为之设计的方向：确定性的链上验证。它不是拿模型去对着val_bpb训练，而是用一组人工标注的边界case黄金集，去优化一个Solana代币发行的分类器。一夜之间它修好了两个真实的误分类，第三个上它发现一个新标签和已上线规则之间的冲突——于是作者把那个留给人来判断。循环负责搜索，标签负责判断。把autoresearch迁移到新领域的硬案例。

💡#3

@DennisonBertram
https://x.com/DennisonBertram/status/2066336724859396147
用Karpathy的Autoresearch背后的同一套逻辑，驱动一个Claude Opus工作流去找两样东西：能逼Llama 3b表现成一个会调用工具的agentic程序员的最佳系统prompt，以及暴露给模型、能让它保持专注的最佳Claude工具组合。这是把autoresearch反过来用在agent自己的配置上——优化的是prompt和工具集，而不是模型权重。

💡#4

@ezgen337292
https://x.com/ezgen337292/status/2066590709248061762
做了ATLAS，一个13个agent的自我改进式"研究到执行"引擎：用LangGraph做supervisor编排、分层任务拆解、在向量加知识图谱的混合检索器上做自适应多跳RAG、还有用DSPy优化、会根据eval反馈自我调参的prompt。这是自我改进agent模式一个完整接线好的样本——系统对着自己的eval跑的过程中，prompt会自动变好。

💡#5

@Metallic_HuH
https://x.com/Metallic_HuH/status/2066579064408916125
做了一个9个agent的LangGraph市场情报系统，带supervisor编排、多阶段抽取、自适应RAG、威胁打分、叙事聚类，以及基于DSPy的自我改进抽取。一个具体的非编码autoresearch应用——把一群协调好的agent放出去做市场和威胁情报，抽取层会随时间自我改进。

💡#6

@0xMovez
https://x.com/0xMovez/status/2066563035875975384
来自Anthropic在日本的舞台：Canva的AI负责人说，Canva每一个AI功能都由为专门任务设计的自我改进式Claude agent驱动，而且100%的Canva AI开发者现在都用AI agent来做产品。这是最清楚的企业级数据点之一，说明自我改进agent系统已经从demo变成了一个排名第一的设计工具的生产骨架。

💡#7

@IBuzovskyi
https://x.com/IBuzovskyi/status/2066386229633912836
一份关于Hermes Agent内置的、对应Karpathy"LLM Wiki"模式的skill的完整拆解：一个用互相链接的markdown文件搭成的自我改进知识库，跟RAG不同，它把知识编译一次并持续保持最新——交叉引用一直连着，矛盾自动被标出，综合反映所有已摄入的内容。你把文章、转录、笔记丢进去，agent负责索引、链接、维持一致；cron任务趁你睡觉时从Gmail、Granola、arXiv往里喂。自我改进知识库的非编码工作流。

💡#8

@EverymansAI
https://x.com/EverymansAI/status/2066542922481508407
一个把Hermes TUI和Hexolab的SIA（自我改进agent）框架做集成的实操系列的第4部分。最实诚的价值在那个不光鲜的关口：他选GPQA作为第一个真正的自我改进测试，因为它自带一个能用的评估器（于是SIA能在代际之间拿到真实反馈信号），然后一步步处理当Claude Pro不给API key时该用哪个provider/模型profile——最后落到基于Nebius的路径。这正是"自我改进agent"被各种评论跳过的那部分：系统能不能用对的凭证可靠地调到对的模型？

💡#9

@0xKnzo
https://x.com/0xKnzo/status/2066507229444935992
一个中国开发者用一台iPad、一个5美元的后端管理一整个AI团队，据说赚了72万美元，而别人在搭昂贵的云基础设施。重点是隔离：Hermes把每个agent都沙箱在自己的Docker容器里，Claude Code在一个对主凭证零访问权限的安全环境里自我改进。演示甚至停在一个prompt注入攻击上，展示一个粗心的云agent泄露API key有多快——和这个被锁死的团队的对比就是全部论点。

💡#10

@0xsuperagent
https://x.com/0xsuperagent/status/2066479301189361906
反驳"agent循环不过是个cron任务，只有token无限你才会去循环"。在Whale/NVIDIA/Nebius/Anthropic办的黑客松上，他们做了War Loops：一个自主的前端设计师，克隆一个在线页面，用六个保真度信号给重建的版本打分，找出最弱的部分并修复——一轮接一轮，用不到5美元复刻精心设计的页面。教训是：一个循环只和它的度量一样好；把eval建到足以定义"更好"，循环就不再是噱头。

💡#11

@shannholmberg
https://x.com/shannholmberg/status/2066582094688694463
一份用开放式研究agent来做增长策略报告的详细打法。先把公司大脑索引好（每个框架、每个过往客户，agent开跑前都读一遍），接上它需要的每个工具（X API、通过Apify的LinkedIn抓取、网页和链上抓取），加载还没进大脑的上下文，然后在prompt上花更多时间，因为开放agent没有严格的harness——那份自由正是重点。它一次跑约15分钟，你迭代到产出够好，等步骤稳定重复了，就把它们抽成一个封闭的agent循环。开放到封闭的autoresearch工作流。

💡#12

@workfolioapp
https://x.com/workfolioapp/status/2066564569288552585
描述了一个自主agent架构，每个automaton跑一个持续的Think→Act→Observe→Repeat循环。首次启动时它生成一个以太坊钱包、通过Sign-In With Ethereum给自己开API key、开始执行它的创世prompt；每一轮它拿到完整上下文（身份、信用余额、生存层级、历史），推理、调工具、观察。一个心跳守护进程在循环休眠时也跑定时任务，automaton还写一个不断演化的SOUL.md——一份自己写的身份文档。自主agent循环架构的具体样本。

💡#13

@sebastiankehle_
https://x.com/sebastiankehle_/status/2066479857995829462
测试了Mastra的agent signals，它让一个正在跑的agent循环变得可寻址：你能在agent还在干活时把上下文推进去，不用重启它。多个客户端能订阅同一个活线程一起操控它；一个processor能在关键时刻注入上下文（碰一个带自己AGENTS.md的文件夹下的文件，那个文件就自己加载进来）；agent还能对外部世界做反应（GitHub的review或CI失败把它唤醒、并入、批处理、或留进一个收件箱）。在生产里跑了一年Mastra后，这是他做长生命周期agent需要的那个原语。

💡#14

@Insta_Spark
https://x.com/Insta_Spark/status/2066460147925282999
在OpenClaw里搭一个agentic循环去发现和分析有价值的股票，并计划把它接到一个网站上让任何人都能用——还分享了这个循环的第一批结果。一个小而真实的例子：把非编码的autoresearch循环指向金融分析，而且心里装着一个面向公众的产品。

💡#15

@astridwilde1
https://x.com/astridwilde1/status/2066415547554922568
一个来自循环的简短但具体的结果：一个agent循环把一个生产脚本从每张图80毫秒压到了每张图3.6微秒。不谈框架，就是那种当你把迭代式agent循环指向一个可度量目标时，它能硬磨出来的暴力优化。

💡#16

@Praveen_G07
https://x.com/Praveen_G07/status/2066476514678554907
对Ctx2Skill的总结，这是一个通过多agent循环自动把上下文（文档、论文、手册）变成可复用skill的系统：一个Challenger出难题，一个Reasoner用现有skill去解，一个Judge给通过/不通过的反馈——失败就生成新skill，轻松通过就升难度，再用一个"跨时间回放"步骤挑出最能泛化的skill集以避免过拟合。它对任何LM都适用、无需重训，把GPT-4.1在该任务上从11.1%提到16.5%。自我改进skill的方法论。

💡#17

@bes_dev
https://x.com/bes_dev/status/2066494812669583850
一个真正有深度的方法论观点：他回到Yoshihiko Futamura在1971年的结果——把一个解释器对一个固定程序做特化，能把慢速解释变成廉价的编译执行。然后他把agentic循环——思考、调工具、分析、重复——重新看成正是这样一个随机解释器，而一段记录下来的任务轨迹正是那个程序。把两者相互特化，字面意义上就是在"编译推理"。一段难得的、重新定义agent循环到底是什么的理论。

💡#18

@kilo_cpa
https://x.com/kilo_cpa/status/2066641280453472371
拆解Karpathy在YC演讲里被"英语是新编程语言"那句盖过去的部分：agent和workflow的区别。一个确定性的五分钟workflow是自动售货机（固定prompt、预期答案）；一个agentic循环是老虎机（规划、用工具、重试、不可预测）。大部分"AI好高效"其实是人在拉老虎机、却忘了自己拉了五次杆。真正的技能——也是真正的生产力杠杆——是把每件工作按产出是否可预测分类，然后在简单工具够用时绝不去拿那个更难的。把方法论讲透的好帖。

💡#19

@0xhorizen
https://x.com/0xhorizen/status/2066358785652797620
点出了也许是可靠长跑agent最重要的一条规则，来自Karpathy："如果你没法评估，你就没法autoresearch它。"在开一个长/goal或agent循环之前，先定义验证器——什么算完成、什么证据能证明成功、每一轮跑哪些检查、什么会把它打回循环。没有这个，agent就没有真正的办法知道自己什么时候做完了。这才是你拿到几个小时自主工作、而不是守着一个transcript当保姆的方式。

💡#20

@Daeshawn
https://x.com/Daeshawn/status/2066557038314795209
一份让Codex自己设定并追求目标的具体配方：让它评估每个任务/子agent所需的投入程度；设一个心跳，让目标越过它通常会停下的那些点继续推进；明确给它继续的许可，这样就没有人在环里卡着；告诉它去靠最佳实践的repo和auto-research工具搭更好的方案；让它对碰到的空白做研究；即使已经有测试也跑一遍QA。他指出可以把最常用的几条写进AGENTS.md，让它们自动触发。可照搬的agentic loop工作流。

💡#21

@GuptaTarav
https://x.com/GuptaTarav/status/2066543754371371454
他认为多数企业买了14个工具、却一个都没接起来，然后摆出他给每个客户装的4层栈：捕获（一个把所有进来的线索/私信/表单收进一处的agent）、增益（在人看到之前对每个线索做auto-research）、外联（几分钟内起草并排好个性化的首次触达）、运营（报表、跟进、交接全自动）。给一家代理公司这套把每周30小时的人工运营压到了5小时以下。auto-research落地到商业运营的案例。

💡#22

@TomSolidPM
https://x.com/TomSolidPM/status/2066580517588271408
给所有做自我改进agent的人一条犀利的原则：一个自我改进的agent，耐久程度只取决于它把改进写在哪。如果"做梦/反思"那一遍把经验提升进厂商的记忆里，下一个模型醒来就是一张白纸。把它们提升进一个你自己拥有的文件夹，经验就能活得比学到它的那个模型更久。拥有底层，租用智能——一句话的设计规则，决定了你的agent到底会不会真正复利。

💡#23

@Dorialexander
https://x.com/Dorialexander/status/2066516339783565603
一个关于autoresearch走向的有思考的方法论观点：随着auto-research升温，前沿模型（欧盟拿不到）注定会在架构实验上领跑，所以对那些被挡在外面的人来说，更难但更有希望的路也许是直接瞄准"开放性"本身，而不是去追同一套闭源模型的架构搜索。把autoresearch看成一个战略前沿、而不只是技术前沿的有用框架。

💡#24

@deforestpeg
https://x.com/deforestpeg/status/2066550288916324705
花了两天故意让spendlens声称"能省回来的钱"更少——因为真正的浪费住在agent循环里，而那正是用一个数字最容易撒谎的地方。它统计那些每一轮都重新触发的工具结果（一个响应缓存本可以免费供给）、按request id折叠日志bug造成的重复（有些工具说你烧了1万亿token，其实你花了1800亿）、并拒绝给那些你根本拿不回来的近乎重复的重读标价。分析里没有LLM，每个数字都能追溯到一个公式。难得一篇实诚的agent循环成本核算。

📡 生态产品雷达

生态产品雷达
LangGraph —— 多agent自我改进栈底下的编排骨架（ATLAS、9-agent市场情报）。
DSPy —— 在那些栈里真正做自我调参的prompt优化层。
Hermes Agent —— LLM Wiki、SIA实验、iPad团队背后的自我改进个人agent运行时。
Karpathy autoresearch / LLM Wiki 模式 —— 全天被反复引用的方法论参照点（验证器优先、不能评估就别循环）。
Codex —— 反复被驱动进自我设定目标的agentic循环，和Claude Code并跑。
SIA（自我改进agent框架）—— Hexolab的框架被拉去做真实的GPQA自我改进测试。
Mastra —— agent signals让一个正在跑的循环可寻址、能在跑的过程中被操控。

← 上一篇

超级用户日报: 2026年6月17日

灵感雷达: 2026年6月17日

← 返回所有文章

加载中...

Loop 日报: 2026年6月17日

相关文章

评论