agent-browser -让 OpenClaw 操作浏览器自动在 知乎、CSDN 编辑发布文章,告别手动复制、粘贴
如果你想持续获取更多相关资讯,欢迎关注 x-cmd 博客。
打开十个新闻网站,浏览、筛选、收藏------半小时就这么没了。这些事不需要动脑子,却要消耗你最宝贵的时间。
现在,把这些重复劳动交给 AI。你只需要说一声"帮我看看今天科技圈有什么大新闻",agent-browser 就会替你打开浏览器、浏览页面、筛选内容,甚至能帮你把结果整理成文章并发布到内容平台上。
agent-browser 是 Vercel Labs 开源的工具,它解决的核心问题是:让 AI 代理能像人一样"看到"页面上可以点击的东西,而不是依赖写死的网页定位符。

快速上手
用 x-cmd 安装 agent-browser 非常简单,只需在终端中运行以下命令即可:
bash
x install agent-browser
最核心的操作只有三个:
bash
agent-browser open example.com # 打开网页
agent-browser snapshot # 看看页面上有什么可以点的
agent-browser click @e1 # 点那个按钮
snapshot 会把页面上的按钮、输入框都列出来,标上编号 @e1、@e2...... 你告诉 AI "点那个编号是 @e1 的按钮",AI 不需要知道这个按钮的 CSS 选择器是什么,它只需要知道这个编号对应的是什么功能。
和 OpenClaw 一起用
OpenClaw + agent-browser 是常见的组合。安装好 agent-browser 后,在 OpenClaw 里直接告诉它:
bash
使用 agent-browser 帮我收集今天科技圈有哪些大新闻整理成文章,然后在 CSDN 上发布
OpenClaw 就会调用 agent-browser 打开浏览器并自动处理你下达的任务,全程你不需要做额外的配置或写任何脚本。
核心特性
快照定位
这是 agent-browser 和其他工具最大的区别。
传统方式:AI 要自己想办法生成类似 #login-form > div:nth-child(2) > input 这样的 CSS 选择器,页面一改就失效。
agent-browser 的方式:每次操作前先让工具"看"一下页面,输出一个带编号的元素列表。AI 基于编号操作,编号对应的实际元素由工具维护,页面改结构不影响编号的有效性。
会话保持
登录过一次,下次不用重新登录:
bash
agent-browser --session-name myapp open twitter.com
这样会把登录状态保存下来,下次运行时自动恢复。
工作原理
整体架构
agent-browser 采用 client-daemon 双进程架构:
- CLI 层(Rust):接收你的命令,转发给 daemon
- Daemon 层(Rust):保持运行,直接与 Chrome 通信
Daemon 在首次命令时自动启动,之后保持运行状态,所以后续命令几乎是瞬时响应------省去了每次新建 Chrome 实例的开销。
与 Chrome 的通信方式
Daemon 通过 CDP(Chrome DevTools Protocol)与 Chrome 通信。CDP 是 Chrome 内置的调试协议,开发者工具、Playwright、Puppeteer 底层都用它。区别在于,agent-browser 直接用 CDP,不需要 Node.js 或浏览器驱动。
快照定位的实现
快照定位的核心是 accessibility tree(无障碍树)。
Accessibility tree 是浏览器内核为无障碍访问维护的数据结构------它把网页的 DOM 转换成"这个元素是什么、叫什么"的语义描述。比如一个 <button id="submit-btn" class="primary">立即注册</button>,在 accessibility tree 里它的角色是"button",名称是"立即注册"。
这种语义描述与 CSS class、DOM 路径解耦。当页面重构------换 class、改结构------只要按钮的文字和功能没变,accessibility tree 的描述基本不变。AI 看到的编号映射就保持有效。
这就是为什么快照定位比 CSS 选择器对 AI 更友好:AI 面对的是语义化的"这是个注册按钮",而不是脆弱的 #submit-btn.primary。
适用场景
- 新闻资讯收集:定时打开多个资讯网站,让 AI 自动抓取标题、摘要和链接,整理成文档
- CSDN 文章发布:将写好的文章内容自动填入 CSDN 编辑器,选择分类、添加标签、点击发布
- 社交媒体运营:批量登录各平台,自动发布内容、回复评论、管理私信
来源: