Agent-browser浏览器自动化CLI

跨平台、功能丰富、极快:重新定义AI上下文通信的Agent优先紧凑文本输出。

对于AI开发者来说,在开发AI Agent时与浏览器交互是一个频繁的过程。让AI Agent更高效地操作浏览器是一个具有挑战性的问题。最近,在搜索AI浏览器自动化测试解决方案时,我发现了Vercel开源的agent-browser,这是一款专为AI Agent设计的浏览器自动化CLI。

agent-browser的特性:

  • 基于引用:快照返回带有引用的可访问树。
  • Agent优先:高效利用AI上下文,节省token。
  • 会话:支持多个具有独立身份验证的隔离浏览器实例。
  • 功能完整:支持超过50个命令,包括导航、表单操作和截图。
  • 跨平台:支持macOS、Linux和Windows平台。

1、安装agent-browser

在安装agent-browser之前,请确保您的计算机上已安装Node.js。

在命令行中输入以下命令。-g选项表示全局安装。

复制代码
npm install -g agent-browser

成功安装agent-browser CLI后,继续输入命令agent-browser install,这将开始下载Chromium浏览器。

复制代码
安装Chromium浏览器...
需要安装以下软件包:
playwright@1.58.2
确定继续?(y) y

成功安装Chromium浏览器后,命令行将输出成功安装的消息。

复制代码
正在下载Chrome for Testing 145.0.7632.6 (playwright chromium v1208)...
162.3 MiB [====================] 100% 0.0s
...
✓ Chromium安装成功

2、使用agent-browser

2.1 打开网页

复制代码
agent-browser open https://agent-browser.dev/

输出:

复制代码
✓ 无头浏览器自动化 for AI
  https://agent-browser.dev/

2.2 获取当前网页的可访问树

复制代码
agent-browser snapshot -i

输出:

复制代码
- 链接 "Made with love by Vercel" [ref=e1]
- 链接 "agent-browser" [ref=e2]
- 链接 "16k" [ref=e3]
- 链接 "npm" [ref=e4]
...
- 按钮 "Ask AI" [ref=e26]

2.3 使用引用进行交互

复制代码
agent-browser click @e3

输出:

复制代码
✓ 完成

2.4 截图

复制代码
agent-browser screenshot ./page.png

输出:

复制代码
✓ 截图已保存到 ./page.png

2.5 关闭浏览器

复制代码
agent-browser close

输出:

复制代码
✓ 浏览器已关闭

3、安装Skills

agent-browser是一款专为AI Agent设计的CLI。结合AI Agent,您可以轻松地自动化浏览器操作。

安装agent-browser skill后,您可以在Cursor、Claude Code或Codex中控制浏览器,执行您想要的任务。

复制代码
npx skills add vercel-labs/agent-browser --skill agent-browser

由于我的电脑上已经安装了Claude CodeLM Studio ,并且下载了qwen3.5-35b-a3b模型,我使用以下命令启动Claude:

复制代码
claude --model qwen3.5-35b-a3b

然后输入截图任务。Claude将开始执行任务并在命令行中显示执行过程:

复制代码
❯ 保存 https://agent-browser.dev/ 网页的截图到当前目录。
  ⎿ 初始化中...
  ⎿  无效的工具参数

⏺ Skill(agent-browser)
  ⎿  成功加载skill · 2个工具允许

⏺ 我将导航到网页并截图。
⏺ Bash(agent-browser open https://agent-browser.dev &&
      agent-browser wait --load networkidle && agent-browser
      screenshot screenshot.png)
  ⎿  ✓ 无头浏览器自动化 for AI
       https://agent-browser.dev/
  ⎿  ✓ 完成
  ⎿  截图已保存到screenshot.png

4、结束语

本文仅介绍了 agent-browser的一些功能。它还可以控制iOS模拟器中的Safari浏览器来执行移动Web应用测试任务。此外,它支持CDP模式,让您可以轻松连接到本地或远程浏览器。

除了agent-browser skill外,它还提供与dogfood、electron和slack相关的skills。如果您感兴趣,可以阅读官方agent-browser文档了解更多详情。


原文链接:Agent-browser浏览器自动化CLI - 汇智网

相关推荐
hweiyu0026 分钟前
Linux命令:ip6tables
linux·运维·服务器
数字化顾问29 分钟前
(122页PPT)企业数字化IT架构蓝图规划设计方案(附下载方式)
java·运维·架构
ITyunwei098741 分钟前
灾难恢复与业务连续性:如何确保天灾人祸下,业务也能“屹立不倒”?
运维·服务器
Promise微笑1 小时前
2026电缆故障定位仪:缆故障定位仪精准选型与高效避坑指南
运维·人工智能·重构
爱喝水的鱼丶1 小时前
SAP-ABAP:新手入门篇——从0到1写出你的第一个ABAP Hello World程序并完成调试运行
运维·服务器·数据库·学习·sap·abap
MY_TEUCK2 小时前
【2026最新Linux虚拟机安装】Linux 虚拟机安装VMware 17 + CentOS 7
linux·运维·centos
再战300年2 小时前
nginx之负载均衡
运维·nginx·负载均衡
Land03292 小时前
指纹浏览器自动化集成方案|多浏览器RPA适配实战记录
运维·人工智能·爬虫·python·selenium·自动化·rpa
霍格沃兹测试学院-小舟畅学3 小时前
浏览器自动化的下一层:为什么 CloakBrowser 把指纹问题推到了源码层?
运维·自动化
YuanDaima20483 小时前
Docker 核心架构与底层技术原理解析
运维·人工智能·docker·微服务·容器·架构·个人开发