阿里的page-agent不截图
大多数网页agent干活像个眯着眼看屏幕的人:截个图,问模型该点哪,挪鼠标,再截一张。慢、贵、还脆。阿里的page-agent直接把这套扔了。它以JavaScript的形式住在网页里,把DOM当文本读,直接动手。不要浏览器插件,不要无头Chrome,不要视觉模型烧token去认像素。
你用自然语言说要干嘛,它通过DOM操作页面,模型你自己带。这项目一直在闷头迭代,33个版本,最新1.10.0在6月中,现在又上了GitHub趋势榜,配着一条新的Hacker News讨论,接近2万星。
为什么值得说:截图加点击那套(大部分computer use演示秀的就是它)是暴力路线。读结构化的DOM更便宜、更快、更稳,而agent的活儿有一大块就发生在浏览器里。它确实没有像素级控制那么通用,但对网页内的自动化,几乎每个实用维度它都赢。这里赌的是:对网页这件事,你不需要眼睛,你需要的是源码。
链接:https://github.com/alibaba/page-agent
← 返回所有文章
你用自然语言说要干嘛,它通过DOM操作页面,模型你自己带。这项目一直在闷头迭代,33个版本,最新1.10.0在6月中,现在又上了GitHub趋势榜,配着一条新的Hacker News讨论,接近2万星。
为什么值得说:截图加点击那套(大部分computer use演示秀的就是它)是暴力路线。读结构化的DOM更便宜、更快、更稳,而agent的活儿有一大块就发生在浏览器里。它确实没有像素级控制那么通用,但对网页内的自动化,几乎每个实用维度它都赢。这里赌的是:对网页这件事,你不需要眼睛,你需要的是源码。
链接:https://github.com/alibaba/page-agent
评论