Loop 日报: 2026年6月17日
今天的"循环"不再是口号,开始拿出收据。开放协作的autoresearch正在硬目标上跑赢闭门实验室——在Shor算法优化上超过谷歌、在压缩上超过SOFA——同时builder们把同一个Karpathy循环指向链上验证、prompt搜索、前端设计。最强的一条线是方法论:一个循环只和它的验证器一样好,你没法autoresearch你评估不了的东西,而一个自我改进的agent耐久程度只取决于它把经验写进哪个文件夹。在底下,LangGraph加DSPy的自我改进栈、以及自我改进知识库,正悄悄成为生产骨架,从Canva的AI功能到用一台iPad运营的一人公司。
#1
@0x10d9e
https://x.com/0x10d9e/status/2066341673081114843
一个跑在@eigenlabs上的开放式agentic autoresearch项目,目标是优化Shor算法,仅用两周就把谷歌最近的闭源电路方案超出了43%。借着这个势头,作者又发起了一个面向社区的新autoresearch项目,瞄准最先进的文件压缩——只提交了几次,就已经把SOFA超出7%。这干净地证明了:在有明确目标的硬问题上,开放协作的autoresearch循环能跑赢闭门实验室的结果。
https://x.com/0x10d9e/status/2066341673081114843
一个跑在@eigenlabs上的开放式agentic autoresearch项目,目标是优化Shor算法,仅用两周就把谷歌最近的闭源电路方案超出了43%。借着这个势头,作者又发起了一个面向社区的新autoresearch项目,瞄准最先进的文件压缩——只提交了几次,就已经把SOFA超出7%。这干净地证明了:在有明确目标的硬问题上,开放协作的autoresearch循环能跑赢闭门实验室的结果。
#2
@Ravenattest
https://x.com/Ravenattest/status/2066530482574021102
把Andrej Karpathy的autoresearch循环拿来,指向一个它本不是为之设计的方向:确定性的链上验证。它不是拿模型去对着val_bpb训练,而是用一组人工标注的边界case黄金集,去优化一个Solana代币发行的分类器。一夜之间它修好了两个真实的误分类,第三个上它发现一个新标签和已上线规则之间的冲突——于是作者把那个留给人来判断。循环负责搜索,标签负责判断。把autoresearch迁移到新领域的硬案例。
https://x.com/Ravenattest/status/2066530482574021102
把Andrej Karpathy的autoresearch循环拿来,指向一个它本不是为之设计的方向:确定性的链上验证。它不是拿模型去对着val_bpb训练,而是用一组人工标注的边界case黄金集,去优化一个Solana代币发行的分类器。一夜之间它修好了两个真实的误分类,第三个上它发现一个新标签和已上线规则之间的冲突——于是作者把那个留给人来判断。循环负责搜索,标签负责判断。把autoresearch迁移到新领域的硬案例。
#3
@DennisonBertram
https://x.com/DennisonBertram/status/2066336724859396147
用Karpathy的Autoresearch背后的同一套逻辑,驱动一个Claude Opus工作流去找两样东西:能逼Llama 3b表现成一个会调用工具的agentic程序员的最佳系统prompt,以及暴露给模型、能让它保持专注的最佳Claude工具组合。这是把autoresearch反过来用在agent自己的配置上——优化的是prompt和工具集,而不是模型权重。
https://x.com/DennisonBertram/status/2066336724859396147
用Karpathy的Autoresearch背后的同一套逻辑,驱动一个Claude Opus工作流去找两样东西:能逼Llama 3b表现成一个会调用工具的agentic程序员的最佳系统prompt,以及暴露给模型、能让它保持专注的最佳Claude工具组合。这是把autoresearch反过来用在agent自己的配置上——优化的是prompt和工具集,而不是模型权重。
#4
@ezgen337292
https://x.com/ezgen337292/status/2066590709248061762
做了ATLAS,一个13个agent的自我改进式"研究到执行"引擎:用LangGraph做supervisor编排、分层任务拆解、在向量加知识图谱的混合检索器上做自适应多跳RAG、还有用DSPy优化、会根据eval反馈自我调参的prompt。这是自我改进agent模式一个完整接线好的样本——系统对着自己的eval跑的过程中,prompt会自动变好。
https://x.com/ezgen337292/status/2066590709248061762
做了ATLAS,一个13个agent的自我改进式"研究到执行"引擎:用LangGraph做supervisor编排、分层任务拆解、在向量加知识图谱的混合检索器上做自适应多跳RAG、还有用DSPy优化、会根据eval反馈自我调参的prompt。这是自我改进agent模式一个完整接线好的样本——系统对着自己的eval跑的过程中,prompt会自动变好。
#5
@Metallic_HuH
https://x.com/Metallic_HuH/status/2066579064408916125
做了一个9个agent的LangGraph市场情报系统,带supervisor编排、多阶段抽取、自适应RAG、威胁打分、叙事聚类,以及基于DSPy的自我改进抽取。一个具体的非编码autoresearch应用——把一群协调好的agent放出去做市场和威胁情报,抽取层会随时间自我改进。
https://x.com/Metallic_HuH/status/2066579064408916125
做了一个9个agent的LangGraph市场情报系统,带supervisor编排、多阶段抽取、自适应RAG、威胁打分、叙事聚类,以及基于DSPy的自我改进抽取。一个具体的非编码autoresearch应用——把一群协调好的agent放出去做市场和威胁情报,抽取层会随时间自我改进。
#6
@0xMovez
https://x.com/0xMovez/status/2066563035875975384
来自Anthropic在日本的舞台:Canva的AI负责人说,Canva每一个AI功能都由为专门任务设计的自我改进式Claude agent驱动,而且100%的Canva AI开发者现在都用AI agent来做产品。这是最清楚的企业级数据点之一,说明自我改进agent系统已经从demo变成了一个排名第一的设计工具的生产骨架。
https://x.com/0xMovez/status/2066563035875975384
来自Anthropic在日本的舞台:Canva的AI负责人说,Canva每一个AI功能都由为专门任务设计的自我改进式Claude agent驱动,而且100%的Canva AI开发者现在都用AI agent来做产品。这是最清楚的企业级数据点之一,说明自我改进agent系统已经从demo变成了一个排名第一的设计工具的生产骨架。
#7
@IBuzovskyi
https://x.com/IBuzovskyi/status/2066386229633912836
一份关于Hermes Agent内置的、对应Karpathy"LLM Wiki"模式的skill的完整拆解:一个用互相链接的markdown文件搭成的自我改进知识库,跟RAG不同,它把知识编译一次并持续保持最新——交叉引用一直连着,矛盾自动被标出,综合反映所有已摄入的内容。你把文章、转录、笔记丢进去,agent负责索引、链接、维持一致;cron任务趁你睡觉时从Gmail、Granola、arXiv往里喂。自我改进知识库的非编码工作流。
https://x.com/IBuzovskyi/status/2066386229633912836
一份关于Hermes Agent内置的、对应Karpathy"LLM Wiki"模式的skill的完整拆解:一个用互相链接的markdown文件搭成的自我改进知识库,跟RAG不同,它把知识编译一次并持续保持最新——交叉引用一直连着,矛盾自动被标出,综合反映所有已摄入的内容。你把文章、转录、笔记丢进去,agent负责索引、链接、维持一致;cron任务趁你睡觉时从Gmail、Granola、arXiv往里喂。自我改进知识库的非编码工作流。
#8
@EverymansAI
https://x.com/EverymansAI/status/2066542922481508407
一个把Hermes TUI和Hexolab的SIA(自我改进agent)框架做集成的实操系列的第4部分。最实诚的价值在那个不光鲜的关口:他选GPQA作为第一个真正的自我改进测试,因为它自带一个能用的评估器(于是SIA能在代际之间拿到真实反馈信号),然后一步步处理当Claude Pro不给API key时该用哪个provider/模型profile——最后落到基于Nebius的路径。这正是"自我改进agent"被各种评论跳过的那部分:系统能不能用对的凭证可靠地调到对的模型?
https://x.com/EverymansAI/status/2066542922481508407
一个把Hermes TUI和Hexolab的SIA(自我改进agent)框架做集成的实操系列的第4部分。最实诚的价值在那个不光鲜的关口:他选GPQA作为第一个真正的自我改进测试,因为它自带一个能用的评估器(于是SIA能在代际之间拿到真实反馈信号),然后一步步处理当Claude Pro不给API key时该用哪个provider/模型profile——最后落到基于Nebius的路径。这正是"自我改进agent"被各种评论跳过的那部分:系统能不能用对的凭证可靠地调到对的模型?
#9
@0xKnzo
https://x.com/0xKnzo/status/2066507229444935992
一个中国开发者用一台iPad、一个5美元的后端管理一整个AI团队,据说赚了72万美元,而别人在搭昂贵的云基础设施。重点是隔离:Hermes把每个agent都沙箱在自己的Docker容器里,Claude Code在一个对主凭证零访问权限的安全环境里自我改进。演示甚至停在一个prompt注入攻击上,展示一个粗心的云agent泄露API key有多快——和这个被锁死的团队的对比就是全部论点。
https://x.com/0xKnzo/status/2066507229444935992
一个中国开发者用一台iPad、一个5美元的后端管理一整个AI团队,据说赚了72万美元,而别人在搭昂贵的云基础设施。重点是隔离:Hermes把每个agent都沙箱在自己的Docker容器里,Claude Code在一个对主凭证零访问权限的安全环境里自我改进。演示甚至停在一个prompt注入攻击上,展示一个粗心的云agent泄露API key有多快——和这个被锁死的团队的对比就是全部论点。
#10
@0xsuperagent
https://x.com/0xsuperagent/status/2066479301189361906
反驳"agent循环不过是个cron任务,只有token无限你才会去循环"。在Whale/NVIDIA/Nebius/Anthropic办的黑客松上,他们做了War Loops:一个自主的前端设计师,克隆一个在线页面,用六个保真度信号给重建的版本打分,找出最弱的部分并修复——一轮接一轮,用不到5美元复刻精心设计的页面。教训是:一个循环只和它的度量一样好;把eval建到足以定义"更好",循环就不再是噱头。
https://x.com/0xsuperagent/status/2066479301189361906
反驳"agent循环不过是个cron任务,只有token无限你才会去循环"。在Whale/NVIDIA/Nebius/Anthropic办的黑客松上,他们做了War Loops:一个自主的前端设计师,克隆一个在线页面,用六个保真度信号给重建的版本打分,找出最弱的部分并修复——一轮接一轮,用不到5美元复刻精心设计的页面。教训是:一个循环只和它的度量一样好;把eval建到足以定义"更好",循环就不再是噱头。
#11
@shannholmberg
https://x.com/shannholmberg/status/2066582094688694463
一份用开放式研究agent来做增长策略报告的详细打法。先把公司大脑索引好(每个框架、每个过往客户,agent开跑前都读一遍),接上它需要的每个工具(X API、通过Apify的LinkedIn抓取、网页和链上抓取),加载还没进大脑的上下文,然后在prompt上花更多时间,因为开放agent没有严格的harness——那份自由正是重点。它一次跑约15分钟,你迭代到产出够好,等步骤稳定重复了,就把它们抽成一个封闭的agent循环。开放到封闭的autoresearch工作流。
https://x.com/shannholmberg/status/2066582094688694463
一份用开放式研究agent来做增长策略报告的详细打法。先把公司大脑索引好(每个框架、每个过往客户,agent开跑前都读一遍),接上它需要的每个工具(X API、通过Apify的LinkedIn抓取、网页和链上抓取),加载还没进大脑的上下文,然后在prompt上花更多时间,因为开放agent没有严格的harness——那份自由正是重点。它一次跑约15分钟,你迭代到产出够好,等步骤稳定重复了,就把它们抽成一个封闭的agent循环。开放到封闭的autoresearch工作流。
#12
@workfolioapp
https://x.com/workfolioapp/status/2066564569288552585
描述了一个自主agent架构,每个automaton跑一个持续的Think→Act→Observe→Repeat循环。首次启动时它生成一个以太坊钱包、通过Sign-In With Ethereum给自己开API key、开始执行它的创世prompt;每一轮它拿到完整上下文(身份、信用余额、生存层级、历史),推理、调工具、观察。一个心跳守护进程在循环休眠时也跑定时任务,automaton还写一个不断演化的SOUL.md——一份自己写的身份文档。自主agent循环架构的具体样本。
https://x.com/workfolioapp/status/2066564569288552585
描述了一个自主agent架构,每个automaton跑一个持续的Think→Act→Observe→Repeat循环。首次启动时它生成一个以太坊钱包、通过Sign-In With Ethereum给自己开API key、开始执行它的创世prompt;每一轮它拿到完整上下文(身份、信用余额、生存层级、历史),推理、调工具、观察。一个心跳守护进程在循环休眠时也跑定时任务,automaton还写一个不断演化的SOUL.md——一份自己写的身份文档。自主agent循环架构的具体样本。
#13
@sebastiankehle_
https://x.com/sebastiankehle_/status/2066479857995829462
测试了Mastra的agent signals,它让一个正在跑的agent循环变得可寻址:你能在agent还在干活时把上下文推进去,不用重启它。多个客户端能订阅同一个活线程一起操控它;一个processor能在关键时刻注入上下文(碰一个带自己AGENTS.md的文件夹下的文件,那个文件就自己加载进来);agent还能对外部世界做反应(GitHub的review或CI失败把它唤醒、并入、批处理、或留进一个收件箱)。在生产里跑了一年Mastra后,这是他做长生命周期agent需要的那个原语。
https://x.com/sebastiankehle_/status/2066479857995829462
测试了Mastra的agent signals,它让一个正在跑的agent循环变得可寻址:你能在agent还在干活时把上下文推进去,不用重启它。多个客户端能订阅同一个活线程一起操控它;一个processor能在关键时刻注入上下文(碰一个带自己AGENTS.md的文件夹下的文件,那个文件就自己加载进来);agent还能对外部世界做反应(GitHub的review或CI失败把它唤醒、并入、批处理、或留进一个收件箱)。在生产里跑了一年Mastra后,这是他做长生命周期agent需要的那个原语。
#14
@Insta_Spark
https://x.com/Insta_Spark/status/2066460147925282999
在OpenClaw里搭一个agentic循环去发现和分析有价值的股票,并计划把它接到一个网站上让任何人都能用——还分享了这个循环的第一批结果。一个小而真实的例子:把非编码的autoresearch循环指向金融分析,而且心里装着一个面向公众的产品。
https://x.com/Insta_Spark/status/2066460147925282999
在OpenClaw里搭一个agentic循环去发现和分析有价值的股票,并计划把它接到一个网站上让任何人都能用——还分享了这个循环的第一批结果。一个小而真实的例子:把非编码的autoresearch循环指向金融分析,而且心里装着一个面向公众的产品。
#15
@astridwilde1
https://x.com/astridwilde1/status/2066415547554922568
一个来自循环的简短但具体的结果:一个agent循环把一个生产脚本从每张图80毫秒压到了每张图3.6微秒。不谈框架,就是那种当你把迭代式agent循环指向一个可度量目标时,它能硬磨出来的暴力优化。
https://x.com/astridwilde1/status/2066415547554922568
一个来自循环的简短但具体的结果:一个agent循环把一个生产脚本从每张图80毫秒压到了每张图3.6微秒。不谈框架,就是那种当你把迭代式agent循环指向一个可度量目标时,它能硬磨出来的暴力优化。
#16
@Praveen_G07
https://x.com/Praveen_G07/status/2066476514678554907
对Ctx2Skill的总结,这是一个通过多agent循环自动把上下文(文档、论文、手册)变成可复用skill的系统:一个Challenger出难题,一个Reasoner用现有skill去解,一个Judge给通过/不通过的反馈——失败就生成新skill,轻松通过就升难度,再用一个"跨时间回放"步骤挑出最能泛化的skill集以避免过拟合。它对任何LM都适用、无需重训,把GPT-4.1在该任务上从11.1%提到16.5%。自我改进skill的方法论。
https://x.com/Praveen_G07/status/2066476514678554907
对Ctx2Skill的总结,这是一个通过多agent循环自动把上下文(文档、论文、手册)变成可复用skill的系统:一个Challenger出难题,一个Reasoner用现有skill去解,一个Judge给通过/不通过的反馈——失败就生成新skill,轻松通过就升难度,再用一个"跨时间回放"步骤挑出最能泛化的skill集以避免过拟合。它对任何LM都适用、无需重训,把GPT-4.1在该任务上从11.1%提到16.5%。自我改进skill的方法论。
#17
@bes_dev
https://x.com/bes_dev/status/2066494812669583850
一个真正有深度的方法论观点:他回到Yoshihiko Futamura在1971年的结果——把一个解释器对一个固定程序做特化,能把慢速解释变成廉价的编译执行。然后他把agentic循环——思考、调工具、分析、重复——重新看成正是这样一个随机解释器,而一段记录下来的任务轨迹正是那个程序。把两者相互特化,字面意义上就是在"编译推理"。一段难得的、重新定义agent循环到底是什么的理论。
https://x.com/bes_dev/status/2066494812669583850
一个真正有深度的方法论观点:他回到Yoshihiko Futamura在1971年的结果——把一个解释器对一个固定程序做特化,能把慢速解释变成廉价的编译执行。然后他把agentic循环——思考、调工具、分析、重复——重新看成正是这样一个随机解释器,而一段记录下来的任务轨迹正是那个程序。把两者相互特化,字面意义上就是在"编译推理"。一段难得的、重新定义agent循环到底是什么的理论。
#18
@kilo_cpa
https://x.com/kilo_cpa/status/2066641280453472371
拆解Karpathy在YC演讲里被"英语是新编程语言"那句盖过去的部分:agent和workflow的区别。一个确定性的五分钟workflow是自动售货机(固定prompt、预期答案);一个agentic循环是老虎机(规划、用工具、重试、不可预测)。大部分"AI好高效"其实是人在拉老虎机、却忘了自己拉了五次杆。真正的技能——也是真正的生产力杠杆——是把每件工作按产出是否可预测分类,然后在简单工具够用时绝不去拿那个更难的。把方法论讲透的好帖。
https://x.com/kilo_cpa/status/2066641280453472371
拆解Karpathy在YC演讲里被"英语是新编程语言"那句盖过去的部分:agent和workflow的区别。一个确定性的五分钟workflow是自动售货机(固定prompt、预期答案);一个agentic循环是老虎机(规划、用工具、重试、不可预测)。大部分"AI好高效"其实是人在拉老虎机、却忘了自己拉了五次杆。真正的技能——也是真正的生产力杠杆——是把每件工作按产出是否可预测分类,然后在简单工具够用时绝不去拿那个更难的。把方法论讲透的好帖。
#19
@0xhorizen
https://x.com/0xhorizen/status/2066358785652797620
点出了也许是可靠长跑agent最重要的一条规则,来自Karpathy:"如果你没法评估,你就没法autoresearch它。"在开一个长/goal或agent循环之前,先定义验证器——什么算完成、什么证据能证明成功、每一轮跑哪些检查、什么会把它打回循环。没有这个,agent就没有真正的办法知道自己什么时候做完了。这才是你拿到几个小时自主工作、而不是守着一个transcript当保姆的方式。
https://x.com/0xhorizen/status/2066358785652797620
点出了也许是可靠长跑agent最重要的一条规则,来自Karpathy:"如果你没法评估,你就没法autoresearch它。"在开一个长/goal或agent循环之前,先定义验证器——什么算完成、什么证据能证明成功、每一轮跑哪些检查、什么会把它打回循环。没有这个,agent就没有真正的办法知道自己什么时候做完了。这才是你拿到几个小时自主工作、而不是守着一个transcript当保姆的方式。
#20
@Daeshawn
https://x.com/Daeshawn/status/2066557038314795209
一份让Codex自己设定并追求目标的具体配方:让它评估每个任务/子agent所需的投入程度;设一个心跳,让目标越过它通常会停下的那些点继续推进;明确给它继续的许可,这样就没有人在环里卡着;告诉它去靠最佳实践的repo和auto-research工具搭更好的方案;让它对碰到的空白做研究;即使已经有测试也跑一遍QA。他指出可以把最常用的几条写进AGENTS.md,让它们自动触发。可照搬的agentic loop工作流。
https://x.com/Daeshawn/status/2066557038314795209
一份让Codex自己设定并追求目标的具体配方:让它评估每个任务/子agent所需的投入程度;设一个心跳,让目标越过它通常会停下的那些点继续推进;明确给它继续的许可,这样就没有人在环里卡着;告诉它去靠最佳实践的repo和auto-research工具搭更好的方案;让它对碰到的空白做研究;即使已经有测试也跑一遍QA。他指出可以把最常用的几条写进AGENTS.md,让它们自动触发。可照搬的agentic loop工作流。
#21
@GuptaTarav
https://x.com/GuptaTarav/status/2066543754371371454
他认为多数企业买了14个工具、却一个都没接起来,然后摆出他给每个客户装的4层栈:捕获(一个把所有进来的线索/私信/表单收进一处的agent)、增益(在人看到之前对每个线索做auto-research)、外联(几分钟内起草并排好个性化的首次触达)、运营(报表、跟进、交接全自动)。给一家代理公司这套把每周30小时的人工运营压到了5小时以下。auto-research落地到商业运营的案例。
https://x.com/GuptaTarav/status/2066543754371371454
他认为多数企业买了14个工具、却一个都没接起来,然后摆出他给每个客户装的4层栈:捕获(一个把所有进来的线索/私信/表单收进一处的agent)、增益(在人看到之前对每个线索做auto-research)、外联(几分钟内起草并排好个性化的首次触达)、运营(报表、跟进、交接全自动)。给一家代理公司这套把每周30小时的人工运营压到了5小时以下。auto-research落地到商业运营的案例。
#22
@TomSolidPM
https://x.com/TomSolidPM/status/2066580517588271408
给所有做自我改进agent的人一条犀利的原则:一个自我改进的agent,耐久程度只取决于它把改进写在哪。如果"做梦/反思"那一遍把经验提升进厂商的记忆里,下一个模型醒来就是一张白纸。把它们提升进一个你自己拥有的文件夹,经验就能活得比学到它的那个模型更久。拥有底层,租用智能——一句话的设计规则,决定了你的agent到底会不会真正复利。
https://x.com/TomSolidPM/status/2066580517588271408
给所有做自我改进agent的人一条犀利的原则:一个自我改进的agent,耐久程度只取决于它把改进写在哪。如果"做梦/反思"那一遍把经验提升进厂商的记忆里,下一个模型醒来就是一张白纸。把它们提升进一个你自己拥有的文件夹,经验就能活得比学到它的那个模型更久。拥有底层,租用智能——一句话的设计规则,决定了你的agent到底会不会真正复利。
#23
@Dorialexander
https://x.com/Dorialexander/status/2066516339783565603
一个关于autoresearch走向的有思考的方法论观点:随着auto-research升温,前沿模型(欧盟拿不到)注定会在架构实验上领跑,所以对那些被挡在外面的人来说,更难但更有希望的路也许是直接瞄准"开放性"本身,而不是去追同一套闭源模型的架构搜索。把autoresearch看成一个战略前沿、而不只是技术前沿的有用框架。
https://x.com/Dorialexander/status/2066516339783565603
一个关于autoresearch走向的有思考的方法论观点:随着auto-research升温,前沿模型(欧盟拿不到)注定会在架构实验上领跑,所以对那些被挡在外面的人来说,更难但更有希望的路也许是直接瞄准"开放性"本身,而不是去追同一套闭源模型的架构搜索。把autoresearch看成一个战略前沿、而不只是技术前沿的有用框架。
#24
@deforestpeg
https://x.com/deforestpeg/status/2066550288916324705
花了两天故意让spendlens声称"能省回来的钱"更少——因为真正的浪费住在agent循环里,而那正是用一个数字最容易撒谎的地方。它统计那些每一轮都重新触发的工具结果(一个响应缓存本可以免费供给)、按request id折叠日志bug造成的重复(有些工具说你烧了1万亿token,其实你花了1800亿)、并拒绝给那些你根本拿不回来的近乎重复的重读标价。分析里没有LLM,每个数字都能追溯到一个公式。难得一篇实诚的agent循环成本核算。
https://x.com/deforestpeg/status/2066550288916324705
花了两天故意让spendlens声称"能省回来的钱"更少——因为真正的浪费住在agent循环里,而那正是用一个数字最容易撒谎的地方。它统计那些每一轮都重新触发的工具结果(一个响应缓存本可以免费供给)、按request id折叠日志bug造成的重复(有些工具说你烧了1万亿token,其实你花了1800亿)、并拒绝给那些你根本拿不回来的近乎重复的重读标价。分析里没有LLM,每个数字都能追溯到一个公式。难得一篇实诚的agent循环成本核算。
📡 生态产品雷达
生态产品雷达
LangGraph —— 多agent自我改进栈底下的编排骨架(ATLAS、9-agent市场情报)。
DSPy —— 在那些栈里真正做自我调参的prompt优化层。
Hermes Agent —— LLM Wiki、SIA实验、iPad团队背后的自我改进个人agent运行时。
Karpathy autoresearch / LLM Wiki 模式 —— 全天被反复引用的方法论参照点(验证器优先、不能评估就别循环)。
Codex —— 反复被驱动进自我设定目标的agentic循环,和Claude Code并跑。
SIA(自我改进agent框架)—— Hexolab的框架被拉去做真实的GPQA自我改进测试。
Mastra —— agent signals让一个正在跑的循环可寻址、能在跑的过程中被操控。
LangGraph —— 多agent自我改进栈底下的编排骨架(ATLAS、9-agent市场情报)。
DSPy —— 在那些栈里真正做自我调参的prompt优化层。
Hermes Agent —— LLM Wiki、SIA实验、iPad团队背后的自我改进个人agent运行时。
Karpathy autoresearch / LLM Wiki 模式 —— 全天被反复引用的方法论参照点(验证器优先、不能评估就别循环)。
Codex —— 反复被驱动进自我设定目标的agentic循环,和Claude Code并跑。
SIA(自我改进agent框架)—— Hexolab的框架被拉去做真实的GPQA自我改进测试。
Mastra —— agent signals让一个正在跑的循环可寻址、能在跑的过程中被操控。
评论