[x-cmd] 让 OpenClaw 操作浏览器自动在 知乎、CSDN 编辑发布文章,告别手动复制、粘贴 | agent-browser

agent-browser -让 OpenClaw 操作浏览器自动在 知乎、CSDN 编辑发布文章,告别手动复制、粘贴

如果你想持续获取更多相关资讯,欢迎关注 x-cmd 博客

打开十个新闻网站,浏览、筛选、收藏------半小时就这么没了。这些事不需要动脑子,却要消耗你最宝贵的时间。

现在,把这些重复劳动交给 AI。你只需要说一声"帮我看看今天科技圈有什么大新闻",agent-browser 就会替你打开浏览器、浏览页面、筛选内容,甚至能帮你把结果整理成文章并发布到内容平台上。

agent-browser 是 Vercel Labs 开源的工具,它解决的核心问题是:让 AI 代理能像人一样"看到"页面上可以点击的东西,而不是依赖写死的网页定位符。

快速上手

用 x-cmd 安装 agent-browser 非常简单,只需在终端中运行以下命令即可:

bash 复制代码
x install agent-browser

最核心的操作只有三个:

bash 复制代码
agent-browser open example.com           # 打开网页
agent-browser snapshot                   # 看看页面上有什么可以点的
agent-browser click @e1                  # 点那个按钮

snapshot 会把页面上的按钮、输入框都列出来,标上编号 @e1@e2...... 你告诉 AI "点那个编号是 @e1 的按钮",AI 不需要知道这个按钮的 CSS 选择器是什么,它只需要知道这个编号对应的是什么功能。

和 OpenClaw 一起用

OpenClaw + agent-browser 是常见的组合。安装好 agent-browser 后,在 OpenClaw 里直接告诉它:

bash 复制代码
使用 agent-browser 帮我收集今天科技圈有哪些大新闻整理成文章,然后在 CSDN 上发布

OpenClaw 就会调用 agent-browser 打开浏览器并自动处理你下达的任务,全程你不需要做额外的配置或写任何脚本。

核心特性

快照定位

这是 agent-browser 和其他工具最大的区别。

传统方式:AI 要自己想办法生成类似 #login-form > div:nth-child(2) > input 这样的 CSS 选择器,页面一改就失效。

agent-browser 的方式:每次操作前先让工具"看"一下页面,输出一个带编号的元素列表。AI 基于编号操作,编号对应的实际元素由工具维护,页面改结构不影响编号的有效性。

会话保持

登录过一次,下次不用重新登录:

bash 复制代码
agent-browser --session-name myapp open twitter.com

这样会把登录状态保存下来,下次运行时自动恢复。

工作原理

整体架构

agent-browser 采用 client-daemon 双进程架构:

  • CLI 层(Rust):接收你的命令,转发给 daemon
  • Daemon 层(Rust):保持运行,直接与 Chrome 通信

Daemon 在首次命令时自动启动,之后保持运行状态,所以后续命令几乎是瞬时响应------省去了每次新建 Chrome 实例的开销。

与 Chrome 的通信方式

Daemon 通过 CDP(Chrome DevTools Protocol)与 Chrome 通信。CDP 是 Chrome 内置的调试协议,开发者工具、Playwright、Puppeteer 底层都用它。区别在于,agent-browser 直接用 CDP,不需要 Node.js 或浏览器驱动。

快照定位的实现

快照定位的核心是 accessibility tree(无障碍树)。

Accessibility tree 是浏览器内核为无障碍访问维护的数据结构------它把网页的 DOM 转换成"这个元素是什么、叫什么"的语义描述。比如一个 <button id="submit-btn" class="primary">立即注册</button>,在 accessibility tree 里它的角色是"button",名称是"立即注册"。

这种语义描述与 CSS class、DOM 路径解耦。当页面重构------换 class、改结构------只要按钮的文字和功能没变,accessibility tree 的描述基本不变。AI 看到的编号映射就保持有效。

这就是为什么快照定位比 CSS 选择器对 AI 更友好:AI 面对的是语义化的"这是个注册按钮",而不是脆弱的 #submit-btn.primary

适用场景

  • 新闻资讯收集:定时打开多个资讯网站,让 AI 自动抓取标题、摘要和链接,整理成文档
  • CSDN 文章发布:将写好的文章内容自动填入 CSDN 编辑器,选择分类、添加标签、点击发布
  • 社交媒体运营:批量登录各平台,自动发布内容、回复评论、管理私信

来源:

https://cn.x-cmd.com/install/agent-browser

相关推荐
梦想的旅途27 分钟前
企业微信外部群主动调用:RPA 接口与官方 API 的技术边界
网络·mysql·自动化·企业微信·rpa
147API20 分钟前
Claude Fable 5 接入拆解:从 Messages API 到 fallback 要改哪些地方
状态模式·claude·fable5
AC赳赳老秦1 小时前
OpenClaw 助力技术面试:自动生成面试题、模拟面试、整理面试知识点
开发语言·python·面试·职场和发展·自动化·deepseek·openclaw
元启数宇1 小时前
机电设计AI不只是消防:给排水、暖通、强弱电如何进入自动化?
运维·人工智能·自动化
CHrisFC1 小时前
LIMS 系统 AI 建设路径:从自动化到智能化的演进之路
运维·人工智能·自动化
蜡笔婧萱2 小时前
磁盘监控 + Web 服务巡检自动化脚本实训任务
运维·自动化
得物技术2 小时前
让 Claude Code 拥有自我进化和记忆系统|得物技术
程序员·ai编程·claude
Techblog of HaoWANG2 小时前
智巡守卫:多模态巡检智能体算法服务端设计与实现——基于Ollama+Qwen3.5的自动化巡检报告生成系统
运维·人工智能·算法·目标检测·自动化·边缘计算
有什么事2 小时前
AI革命:云手机从脚本到智能体的跨越
人工智能·智能手机·自动化
MXsoft6182 小时前
**分组管理:按机房、业务、部门灵活建组,支持跨组归属**
自动化