Workweave Router替你选模型,每一次请求都重选一遍
有个问题,每个用编码agent的人都有,但都装作没有:你把每一次请求都发给最贵的模型,因为挑模型太烦了。Workweave刚把Router开源出来,就是来治这个毛病的。它是个即插即用的代理,用一个跑在本地的小embedder为每次请求挑最合适的模型,不是靠system prompt里"拍脑袋"的规则,50毫秒内就路由到Anthropic、OpenAI或Gemini。
号称能省40%到70%的成本,有意思的是它的方法。它不靠一个大路由模型来决策,而是用一篇叫Avengers-Pro的研究里的聚类打分:给进来的请求打个分,匹配到擅长这类活的那一簇模型,再发过去。便宜的请求走便宜的模型,难的交给重量级选手,你不用再花旗舰价去格式化一段JSON。它同时讲Anthropic Messages、OpenAI Chat Completions和Gemini原生协议,流式、工具调用、视觉全都保留,所以Claude Code、Codex、Cursor直接就能用。
对落地最关键的一个细节:你的provider密钥留在自己机器上,静态加密,还内置了OpenTelemetry追踪。这不是一个抽你token的SaaS中间商,而是一个本地网关。用Go写的,ELv2协议,出自Workweave团队,他们那套工程智能平台已经跑在Robinhood和PostHog上了。
往大了说,选模型正在变成一个优化问题,而不是品牌忠诚。一年前你选了Claude或GPT就一直用下去。现在聪明钱都在跑一个组合,让一个50毫秒的分类器在每一次调用上套利"性价比"的价差。模型不再是产品了,路由这一层才是。
链接:https://github.com/workweave/router
← 返回所有文章
号称能省40%到70%的成本,有意思的是它的方法。它不靠一个大路由模型来决策,而是用一篇叫Avengers-Pro的研究里的聚类打分:给进来的请求打个分,匹配到擅长这类活的那一簇模型,再发过去。便宜的请求走便宜的模型,难的交给重量级选手,你不用再花旗舰价去格式化一段JSON。它同时讲Anthropic Messages、OpenAI Chat Completions和Gemini原生协议,流式、工具调用、视觉全都保留,所以Claude Code、Codex、Cursor直接就能用。
对落地最关键的一个细节:你的provider密钥留在自己机器上,静态加密,还内置了OpenTelemetry追踪。这不是一个抽你token的SaaS中间商,而是一个本地网关。用Go写的,ELv2协议,出自Workweave团队,他们那套工程智能平台已经跑在Robinhood和PostHog上了。
往大了说,选模型正在变成一个优化问题,而不是品牌忠诚。一年前你选了Claude或GPT就一直用下去。现在聪明钱都在跑一个组合,让一个50毫秒的分类器在每一次调用上套利"性价比"的价差。模型不再是产品了,路由这一层才是。
链接:https://github.com/workweave/router
评论