[x-cmd] 让 OpenClaw 操作浏览器自动在 知乎、CSDN 编辑发布文章,告别手动复制、粘贴 | agent-browser

agent-browser -让 OpenClaw 操作浏览器自动在 知乎、CSDN 编辑发布文章,告别手动复制、粘贴

如果你想持续获取更多相关资讯,欢迎关注 x-cmd 博客

打开十个新闻网站,浏览、筛选、收藏------半小时就这么没了。这些事不需要动脑子,却要消耗你最宝贵的时间。

现在,把这些重复劳动交给 AI。你只需要说一声"帮我看看今天科技圈有什么大新闻",agent-browser 就会替你打开浏览器、浏览页面、筛选内容,甚至能帮你把结果整理成文章并发布到内容平台上。

agent-browser 是 Vercel Labs 开源的工具,它解决的核心问题是:让 AI 代理能像人一样"看到"页面上可以点击的东西,而不是依赖写死的网页定位符。

快速上手

用 x-cmd 安装 agent-browser 非常简单,只需在终端中运行以下命令即可:

bash 复制代码
x install agent-browser

最核心的操作只有三个:

bash 复制代码
agent-browser open example.com           # 打开网页
agent-browser snapshot                   # 看看页面上有什么可以点的
agent-browser click @e1                  # 点那个按钮

snapshot 会把页面上的按钮、输入框都列出来,标上编号 @e1@e2...... 你告诉 AI "点那个编号是 @e1 的按钮",AI 不需要知道这个按钮的 CSS 选择器是什么,它只需要知道这个编号对应的是什么功能。

和 OpenClaw 一起用

OpenClaw + agent-browser 是常见的组合。安装好 agent-browser 后,在 OpenClaw 里直接告诉它:

bash 复制代码
使用 agent-browser 帮我收集今天科技圈有哪些大新闻整理成文章,然后在 CSDN 上发布

OpenClaw 就会调用 agent-browser 打开浏览器并自动处理你下达的任务,全程你不需要做额外的配置或写任何脚本。

核心特性

快照定位

这是 agent-browser 和其他工具最大的区别。

传统方式:AI 要自己想办法生成类似 #login-form > div:nth-child(2) > input 这样的 CSS 选择器,页面一改就失效。

agent-browser 的方式:每次操作前先让工具"看"一下页面,输出一个带编号的元素列表。AI 基于编号操作,编号对应的实际元素由工具维护,页面改结构不影响编号的有效性。

会话保持

登录过一次,下次不用重新登录:

bash 复制代码
agent-browser --session-name myapp open twitter.com

这样会把登录状态保存下来,下次运行时自动恢复。

工作原理

整体架构

agent-browser 采用 client-daemon 双进程架构:

  • CLI 层(Rust):接收你的命令,转发给 daemon
  • Daemon 层(Rust):保持运行,直接与 Chrome 通信

Daemon 在首次命令时自动启动,之后保持运行状态,所以后续命令几乎是瞬时响应------省去了每次新建 Chrome 实例的开销。

与 Chrome 的通信方式

Daemon 通过 CDP(Chrome DevTools Protocol)与 Chrome 通信。CDP 是 Chrome 内置的调试协议,开发者工具、Playwright、Puppeteer 底层都用它。区别在于,agent-browser 直接用 CDP,不需要 Node.js 或浏览器驱动。

快照定位的实现

快照定位的核心是 accessibility tree(无障碍树)。

Accessibility tree 是浏览器内核为无障碍访问维护的数据结构------它把网页的 DOM 转换成"这个元素是什么、叫什么"的语义描述。比如一个 <button id="submit-btn" class="primary">立即注册</button>,在 accessibility tree 里它的角色是"button",名称是"立即注册"。

这种语义描述与 CSS class、DOM 路径解耦。当页面重构------换 class、改结构------只要按钮的文字和功能没变,accessibility tree 的描述基本不变。AI 看到的编号映射就保持有效。

这就是为什么快照定位比 CSS 选择器对 AI 更友好:AI 面对的是语义化的"这是个注册按钮",而不是脆弱的 #submit-btn.primary

适用场景

  • 新闻资讯收集:定时打开多个资讯网站,让 AI 自动抓取标题、摘要和链接,整理成文档
  • CSDN 文章发布:将写好的文章内容自动填入 CSDN 编辑器,选择分类、添加标签、点击发布
  • 社交媒体运营:批量登录各平台,自动发布内容、回复评论、管理私信

来源:

https://cn.x-cmd.com/install/agent-browser

相关推荐
mingjie12122 小时前
mac virtualbox虚拟机 ubuntu-server openclaw 访问配置
linux·运维·ubuntu·openclaw
芝士爱知识a2 小时前
IvyClaw核心架构解析与2026年全球智能体教育咨询范式重构
人工智能·重构·架构·留学·openclaw·ivyclaw
我科绝伦(Huanhuan Zhou)2 小时前
分享一个自己写的智能巡检系统
运维·人工智能·自动化
Agent产品评测局2 小时前
能源行业自动化解决方案选型,安全与降本双提升:2026企业级智能体选型指南
运维·人工智能·安全·ai·chatgpt·自动化
前端大波12 小时前
Sentry 每日错误巡检自动化:设计思路与上手实战
前端·自动化·sentry
志栋智能14 小时前
超自动化运维的终极目标:让系统自治运行
运维·网络·人工智能·安全·自动化
SP八岐大兔14 小时前
AI对话&OpenClaw全域终极指令大全
网络·人工智能·openclaw
key_3_feng16 小时前
OpenClaw本地部署方案:硬件配置与环境搭建全指南
openclaw
Saniffer_SH16 小时前
【每日一题】一台可编程的PCIe 6.0主机 + 一套自动化CTS验证平台 + 一个轻量级链路分析系统
运维·服务器·测试工具·fpga开发·自动化·计算机外设·硬件架构