Cosine 训了个会黑、而不是拒绝你的模型
Cosine,就是那个做出 Genie、把 SWE-bench 刷到榜首的公司,刚发布了 ArgusRed,一个做安全扫描和渗透测试的 CLI。有意思的不是这个 CLI,而是 ArgusRed 跑的是 Cosine 专门为攻击性安全 post-train 出来的一个模型。他们为什么要自己训?理由很直白:现成的模型,根本不肯干这个产品要干的活。你让 GPT 或者 Claude 写个 exploit,它给你上一堂课。红队的人用不了一个对真活儿说不的模型。
它有两个模式。Security Scan 是只读、自助的,它读你的代码库,把真正可被利用的地方标出来,不是那种 lint 级别的噪音。Pen Test 模式更进一步,一群 AI agent 真的去对授权过的系统尝试攻击。而真正让这套东西站得住脚的设计是这个:安全不靠模型的不情愿,而靠一个坐在模型下面的 Go harness,它在每一次工具调用执行之前拦下来。扫描模式下,不管模型想干嘛,harness 都会确定性地拦掉任何会改动东西的工具。渗透模式下,它把网络出口限死在授权目标范围内,而且这个模式必须先签好、写清楚范围的授权才能开。
这个拆分才是重点。整个行业对付危险能力的默认答案,就是把模型训得会拒绝,而我们一次又一次看着这招反噬。一周前 Anthropic 那个出口禁令,导火索是一个号称的越狱,扒到最后就是三个词,fix this code。你没法靠 RLHF 训出一个既对防御者真有用、又安全的模型,因为同一个能力两边都能用。Cosine 的答案是:别再假装模型的判断力就是护栏。把能力完整地建出来,然后把真正的控制权放进一个确定性的层,由它来决定哪些工具被允许触发。
我的判断是,harness 压过 refusal,就是更对的架构,而且不只是安全领域。拒绝是个钝器,还用错了层,是模型在猜一个它根本验证不了的意图。而 harness 清清楚楚知道这次工具调用要干什么,可以按策略放行或拦截。防御者一直缺攻击性工具,恰恰是因为最强的模型被训得一碰就缩。Cosine 赌的是,真正在守系统的人,宁可要一把带硬护栏的利器,也不要一把会道歉的钝刀。
装是免费的,送 200 万 token,不开源,渗透模式得有书面授权。细节在 argusred.com/cli。
← 返回所有文章
它有两个模式。Security Scan 是只读、自助的,它读你的代码库,把真正可被利用的地方标出来,不是那种 lint 级别的噪音。Pen Test 模式更进一步,一群 AI agent 真的去对授权过的系统尝试攻击。而真正让这套东西站得住脚的设计是这个:安全不靠模型的不情愿,而靠一个坐在模型下面的 Go harness,它在每一次工具调用执行之前拦下来。扫描模式下,不管模型想干嘛,harness 都会确定性地拦掉任何会改动东西的工具。渗透模式下,它把网络出口限死在授权目标范围内,而且这个模式必须先签好、写清楚范围的授权才能开。
这个拆分才是重点。整个行业对付危险能力的默认答案,就是把模型训得会拒绝,而我们一次又一次看着这招反噬。一周前 Anthropic 那个出口禁令,导火索是一个号称的越狱,扒到最后就是三个词,fix this code。你没法靠 RLHF 训出一个既对防御者真有用、又安全的模型,因为同一个能力两边都能用。Cosine 的答案是:别再假装模型的判断力就是护栏。把能力完整地建出来,然后把真正的控制权放进一个确定性的层,由它来决定哪些工具被允许触发。
我的判断是,harness 压过 refusal,就是更对的架构,而且不只是安全领域。拒绝是个钝器,还用错了层,是模型在猜一个它根本验证不了的意图。而 harness 清清楚楚知道这次工具调用要干什么,可以按策略放行或拦截。防御者一直缺攻击性工具,恰恰是因为最强的模型被训得一碰就缩。Cosine 赌的是,真正在守系统的人,宁可要一把带硬护栏的利器,也不要一把会道歉的钝刀。
装是免费的,送 200 万 token,不开源,渗透模式得有书面授权。细节在 argusred.com/cli。
评论