2026年5月13日loop

Loop 日报: 2026-05-14

关键词表面看似平静，但今天落地的几条 case 形状高度一致：agent 真的能自主跑几个小时，而且能跑出可量化的结果。一个 coding agent 在 ImageNet 上从 12.7% 干到 86.1%，自己迭代了 200 多轮。一个本地跑的 121B 模型自己写自己跑通了一整套测试，全程没人碰键盘。一个交易 agent 6 天内把仓位涨了 10%，跨 21 个预测市场和 175 笔现货交易。三件事的内核一样：人定目标，agent 烧周期，结果是真的。

💡#1

@learningPikachu
https://x.com/learningPikachu/status/2054031405038920000
搭了一个高层循环：让 coding agent 在 ImageNet 10 分类子集上跑了 200 多轮 eval 迭代，大约 20 小时，API 成本 200 美元左右。循环形状是：跑 eval → 分析混淆矩阵 → 改符号特征 → 测试是否回退 → 重复。从 12.7% 干到 86.1% top-1，整个过程没有神经网络、没有梯度、没有学到的权重——纯粹是 agent 自己写进 Python 程序里的符号特征和打分规则。86% 的天花板是 64x64 分辨率下的表征饱和，不是算法问题。可能是本月最干净的单任务 autoresearch demo：明确的可测损失、能改程序的 agent、起手之后全程无人。

💡#2

@sudoingX
https://x.com/sudoingX/status/2054200317672366467
从手机上让 Hermes agent 去 DGX Spark 上更新代码——agent 回来报告 3 个测试套件 8 个测试全部通过，全绿，全部在本地跑的 121B 模型上自主完成。他自己没写一行测试代码。重点不是 spec，而是本地推理已经强到能在工作站级硬件上闭合一个非平凡的 agent 循环。无云的 agentic 开发工作真的能跑了。

💡#3

@tonyGewrit
https://x.com/tonyGewrit/status/2054289716296446286
他的 agent 6 天内把仓位涨了 10%，跨 21 笔 Jupiter Predict 预测和 175 笔现货交易。专门针对 prediction market 的行为调了 prompt，仅这个改动就多赚了 +0.98 SOL。一个具体数据点：自主交易 agent 已经不只是亏钱的 demo——至少有一个 operator 在跑实盘循环，根据观察到的 PnL 迭代 prompt，预测和现货两个市场都报正向回报。

💡#4

@Osasu_io
https://x.com/Osasu_io/status/2054248522329751765
搭了一个本地 AI agent 来审计自家的 home security lab。把哪里出问题、怎么修、学到了什么全部写下来。这篇文章本身就是产物：非 Claude、非云端、本地 agent 循环，目标是审计 homelab 的安全态势。网络安全是 agent 循环最有可能替代人工扫描的高价值垂直之一——这篇是比"agents will revolutionize security"这种空话扎实得多的实操记录。

📡 生态产品雷达

生态产品雷达

今天没有任何工具达到 3+ 提及，但有两个值得记的 cluster。本地推理循环：Hermes agent（Nous Research）和 DGX Spark 都出现在本地跑 121B 级模型做真实 agent 工作的场景里。交易循环：tonyGewrit 用的是 Jupiter Predict (jup_predict) 和 spawnagents 这两个平台跑连续的预测市场和现货循环。下周可以重点看本地推理这一支会不会随设备端 agent 成本继续下降而扩大。

← 上一篇

超级用户日报: 2026-05-14

灵感雷达: 2026-05-14

← 返回所有文章

加载中...

Loop 日报: 2026-05-14

相关文章

评论