一个插件,让 AI 智能体住在你的网页
阿里开源了一个叫 Page-Agent 的项目,GitHub 上 18.9K star,装一个浏览器扩展,就能用自然语言直接操控任何网页。不需要后端服务器、不需要截图 OCR,纯前端 Agent 直接上阵。
你有没有遇到过这种情况:打开一个网页,上面有几十个格子要填,姓名、身份证、手机号、地址、申请类型、用途……填完一个又下一个,搞不好还要重来。
最近,GitHub 上有个阿里的项目爆了,很可能帮你解决这个问题。这个项目叫 Page-Agent,已经有近两万颗星。它是一个浏览器插件,装好之后,你说一句话,AI 就能直接帮你操作网页
比如,现在你跟它说:「帮我把这个表单填了」「找到页面上所有打折的商品,把名字和价格整理出来」「帮我找到产品文档的入口」,它直接就能帮你做。它住在你的网页里,就像一个随时待命的小助手。
它到底好在哪?
第一,安装简单,装个插件就行。 你不需要折腾任何环境,不需要后台跑什么程序,只要装一个插件就行。任何做网页产品的公司,以后都可以把这种能力集成到自己的产品里。用户在系统里说句话就能操作,不用再看手册了。
第二,它不是看网页,而是读网页。 我们人操作网页,是靠眼睛看,找到按钮在哪,然后点。但 AI 不需要用眼睛看,直接读网页背后的代码就能理解。Page-Agent 不需要截图,所以处理速度很快,而且默认用的大模型目前完全免费,你不用担心成本。
第三,靠谱,不乱来。 它要操作什么,会先弹出来给你看,你同意了它才做。比如它要帮你提交表单,会先向你确认有没有问题,你确认后,它才会动手。并且万一它理解错了,你随时可以打断。整个过程你完全看得见、管得住,不会担心它把你的事情搞砸。
具体该怎么使用?
如果你用的是 Chrome 浏览器,可以打开 Chrome 应用商店,搜索「Page Agent Ext」,安装就好。
国内网络环境可能无法访问,也可以通过浏览器扩展的方式安装:以 Edge 和 Chrome 浏览器为例,解压附件压缩包-打开浏览器-点击右上角三个点-扩展-管理扩展-左下角打开开发人员选项(Chrome在右上角)-选择加载解压缩的扩展-选择解压好的附件文件夹,就可以了。其他支持扩展安装的浏览器也是一样的,这里不一一列举了。
装好之后,点击浏览器首页右上角的扩展图标,就会看到 Page Agent Ext 了。然后打开任意网页,点一下图标,弹出一个对话框,输入你想做的事,就行了。
这里我列举三个最实用的场景:
场景一:填表