Gemini 3.5 Flash 现在会用你的电脑了
谷歌把 computer use 直接塞进了 Gemini 3.5 Flash。不是单独的模型,不是研究预览,就是你本来就会顺手用的那个又快又便宜的模型,现在能看屏幕、能推理、能点击。浏览器、手机、桌面都行。以前这是 Gemini 2.5 上一个独立的东西,现在长在主力模型里了。
关键就在便宜这一层。computer use 是 agent 干的活里最乱、最烧 token 的一种,你要一遍遍对着截图循环,决定下一步点哪、检查点对没有。谷歌把它放进 Flash 而不是旗舰,等于在说这应该是个白菜价能力,不是高端选配。博客里点了 OSWorld 的提升,那是 agent 操作真实软件的标准评测。
谷歌显然知道那个最明显的质疑:一个 agent 在你机器上到处点,是安全噩梦。所以他们针对提示注入做了对抗训练,还发了可选的企业级保护:敏感操作前先问人,闻到注入攻击的味道就自动掐掉任务。这套在真正的攻击者面前扛不扛得住还是个问号,但至少他们没装作风险不存在。
通过 Gemini API 和企业 Agent 平台就能用,演示跑在 Browserbase 上。往大了看:computer use 正在悄悄从特技变成默认工具,就像两年前 function calling 那样。当那个无聊的快模型能驱动屏幕上任何 app,还需要人盯着的事情清单就越来越短。https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/
← 返回所有文章
关键就在便宜这一层。computer use 是 agent 干的活里最乱、最烧 token 的一种,你要一遍遍对着截图循环,决定下一步点哪、检查点对没有。谷歌把它放进 Flash 而不是旗舰,等于在说这应该是个白菜价能力,不是高端选配。博客里点了 OSWorld 的提升,那是 agent 操作真实软件的标准评测。
谷歌显然知道那个最明显的质疑:一个 agent 在你机器上到处点,是安全噩梦。所以他们针对提示注入做了对抗训练,还发了可选的企业级保护:敏感操作前先问人,闻到注入攻击的味道就自动掐掉任务。这套在真正的攻击者面前扛不扛得住还是个问号,但至少他们没装作风险不存在。
通过 Gemini API 和企业 Agent 平台就能用,演示跑在 Browserbase 上。往大了看:computer use 正在悄悄从特技变成默认工具,就像两年前 function calling 那样。当那个无聊的快模型能驱动屏幕上任何 app,还需要人盯着的事情清单就越来越短。https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/
评论