2026年5月13日loop

Loop 日报: 2026-05-14

关键词表面看似平静,但今天落地的几条 case 形状高度一致:agent 真的能自主跑几个小时,而且能跑出可量化的结果。一个 coding agent 在 ImageNet 上从 12.7% 干到 86.1%,自己迭代了 200 多轮。一个本地跑的 121B 模型自己写自己跑通了一整套测试,全程没人碰键盘。一个交易 agent 6 天内把仓位涨了 10%,跨 21 个预测市场和 175 笔现货交易。三件事的内核一样:人定目标,agent 烧周期,结果是真的。
💡#1
@learningPikachu
https://x.com/learningPikachu/status/2054031405038920000
搭了一个高层循环:让 coding agent 在 ImageNet 10 分类子集上跑了 200 多轮 eval 迭代,大约 20 小时,API 成本 200 美元左右。循环形状是:跑 eval → 分析混淆矩阵 → 改符号特征 → 测试是否回退 → 重复。从 12.7% 干到 86.1% top-1,整个过程没有神经网络、没有梯度、没有学到的权重——纯粹是 agent 自己写进 Python 程序里的符号特征和打分规则。86% 的天花板是 64x64 分辨率下的表征饱和,不是算法问题。可能是本月最干净的单任务 autoresearch demo:明确的可测损失、能改程序的 agent、起手之后全程无人。
💡#2
@sudoingX
https://x.com/sudoingX/status/2054200317672366467
从手机上让 Hermes agent 去 DGX Spark 上更新代码——agent 回来报告 3 个测试套件 8 个测试全部通过,全绿,全部在本地跑的 121B 模型上自主完成。他自己没写一行测试代码。重点不是 spec,而是本地推理已经强到能在工作站级硬件上闭合一个非平凡的 agent 循环。无云的 agentic 开发工作真的能跑了。
💡#3
@tonyGewrit
https://x.com/tonyGewrit/status/2054289716296446286
他的 agent 6 天内把仓位涨了 10%,跨 21 笔 Jupiter Predict 预测和 175 笔现货交易。专门针对 prediction market 的行为调了 prompt,仅这个改动就多赚了 +0.98 SOL。一个具体数据点:自主交易 agent 已经不只是亏钱的 demo——至少有一个 operator 在跑实盘循环,根据观察到的 PnL 迭代 prompt,预测和现货两个市场都报正向回报。
💡#4
@Osasu_io
https://x.com/Osasu_io/status/2054248522329751765
搭了一个本地 AI agent 来审计自家的 home security lab。把哪里出问题、怎么修、学到了什么全部写下来。这篇文章本身就是产物:非 Claude、非云端、本地 agent 循环,目标是审计 homelab 的安全态势。网络安全是 agent 循环最有可能替代人工扫描的高价值垂直之一——这篇是比"agents will revolutionize security"这种空话扎实得多的实操记录。
📡 生态产品雷达
生态产品雷达

今天没有任何工具达到 3+ 提及,但有两个值得记的 cluster。本地推理循环:Hermes agent(Nous Research)和 DGX Spark 都出现在本地跑 121B 级模型做真实 agent 工作的场景里。交易循环:tonyGewrit 用的是 Jupiter Predict (jup_predict) 和 spawnagents 这两个平台跑连续的预测市场和现货循环。下周可以重点看本地推理这一支会不会随设备端 agent 成本继续下降而扩大。
← 上一篇
超级用户日报: 2026-05-14
下一篇 →
灵感雷达: 2026-05-14
← 返回所有文章

评论

加载中...
>_