2026年6月20日Agents Tool Coding

Cosine 训了个会黑、而不是拒绝你的模型

Cosine，就是那个做出 Genie、把 SWE-bench 刷到榜首的公司，刚发布了 ArgusRed，一个做安全扫描和渗透测试的 CLI。有意思的不是这个 CLI，而是 ArgusRed 跑的是 Cosine 专门为攻击性安全 post-train 出来的一个模型。他们为什么要自己训？理由很直白：现成的模型，根本不肯干这个产品要干的活。你让 GPT 或者 Claude 写个 exploit，它给你上一堂课。红队的人用不了一个对真活儿说不的模型。

它有两个模式。Security Scan 是只读、自助的，它读你的代码库，把真正可被利用的地方标出来，不是那种 lint 级别的噪音。Pen Test 模式更进一步，一群 AI agent 真的去对授权过的系统尝试攻击。而真正让这套东西站得住脚的设计是这个：安全不靠模型的不情愿，而靠一个坐在模型下面的 Go harness，它在每一次工具调用执行之前拦下来。扫描模式下，不管模型想干嘛，harness 都会确定性地拦掉任何会改动东西的工具。渗透模式下，它把网络出口限死在授权目标范围内，而且这个模式必须先签好、写清楚范围的授权才能开。

这个拆分才是重点。整个行业对付危险能力的默认答案，就是把模型训得会拒绝，而我们一次又一次看着这招反噬。一周前 Anthropic 那个出口禁令，导火索是一个号称的越狱，扒到最后就是三个词，fix this code。你没法靠 RLHF 训出一个既对防御者真有用、又安全的模型，因为同一个能力两边都能用。Cosine 的答案是：别再假装模型的判断力就是护栏。把能力完整地建出来，然后把真正的控制权放进一个确定性的层，由它来决定哪些工具被允许触发。

我的判断是，harness 压过 refusal，就是更对的架构，而且不只是安全领域。拒绝是个钝器，还用错了层，是模型在猜一个它根本验证不了的意图。而 harness 清清楚楚知道这次工具调用要干什么，可以按策略放行或拦截。防御者一直缺攻击性工具，恰恰是因为最强的模型被训得一碰就缩。Cosine 赌的是，真正在守系统的人，宁可要一把带硬护栏的利器，也不要一把会道歉的钝刀。

装是免费的，送 200 万 token，不开源，渗透模式得有书面授权。细节在 argusred.com/cli。

← 上一篇

Cloudflare 给 AI agent 发了张一次性账号

超级用户日报: 2026年6月21日

← 返回所有文章

加载中...

Cosine 训了个会黑、而不是拒绝你的模型

相关文章

评论