Browser Use — AI驱动浏览器自动化的全新范式

什么是 Browser Use?

Browser Use 是一个开源的浏览器自动化工具生态,核心项目包括 browser-harness ------ 一个轻量级、可编辑的 CDP (Chrome DevTools Protocol) 控制层,让 AI 能够直接操控你的真实 Chrome 浏览器。

它的设计理念是:"你将永远不再亲自操作浏览器"。AI 代理通过截图、坐标点击和 JS 执行来操控页面,仿佛给浏览器装上了眼睛和双手。

为什么选择 Browser Use?

1. 极简架构

核心代码只有约 1000 行,分布在 4 个文件中。没有冗余的抽象层、重试框架或复杂配置。

2. 截图优先的交互模式

传统自动化工具(Selenium/Playwright)要求你找到选择器才能点击。Browser Harness 反其道而行之:

  • 先截图 → 看像素坐标
  • 坐标点击 click_at_xy(x, y) → 穿透 iframe/阴影 DOM/跨域
  • 再截图验证 结果

3. 连接真实 Chrome

不需要启动新的浏览器实例。直接连接你正在使用的 Chrome,登录态、Cookie、扩展全部保留。

4. 原始 CDP 能力

可以直接调用任意 Chrome DevTools 协议方法,没有封装损耗。

快速上手

安装

Setup prompt

bash 复制代码
Set up https://github.com/browser-use/browser-harness for me.

Read `install.md` and follow the steps to install browser-harness and connect it to my browser.
bash 复制代码
git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .

连接浏览器

  1. 在 Chrome 地址栏输入 chrome://inspect/#remote-debugging
  2. 勾选 "Allow remote debugging for this browser instance"
  3. 运行测试:
bash 复制代码
browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY

第一个脚本

python 复制代码
browser-harness <<'PY'
new_tab("https://www.baidu.com")
wait_for_load()
capture_screenshot("baidu.png")
click_at_xy(500, 300)
wait_for_load()
print(page_info())
PY

主要能力

能力 说明
页面导航 打开新标签页、切换标签页、跳转 URL
截图识别 截取页面截图,通过像素坐标点击
坐标点击 click_at_xy(x, y) 穿透 iframe/Shadow DOM
JS 执行 在页面中运行 JavaScript
HTTP 请求 http_get(url) 直接发请求,不走浏览器
原始 CDP 调用任意 Chrome DevTools 协议
云浏览器 连接 Browser Use 云端隔离浏览器

设计哲学

Browser Harness 坚持以下原则:

  • 坐标点击优先 :通过 Input.dispatchMouseEvent 在合成层级发送鼠标事件,穿透 iframe/阴影 DOM/跨域限制
  • 连接真实浏览器:不启动新实例,直接复用用户的 Chrome
  • 核心保持简洁:不添加重试框架、会话管理器、配置系统
  • 自我进化 :代理在执行中发现缺失的工具函数时,可以直接写入 agent_helpers.py

总结

Browser Use 代表了浏览器自动化的新范式------不再是"找选择器→点击",而是"截图→坐标点击→验证",更接近人类操作浏览器的方式。配合 LLM 的视觉能力,可以处理任何复杂度的 Web 任务。

这篇介绍博客也是使用了Browser Use完整流程发布的,然后我再进行编辑修改的;

安装到发布文章接近300w token消耗还是挺大的,差不多3毛钱左右

相关推荐
LinXunFeng2 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
shushangyun_6 天前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
闪闪发亮的小星星6 天前
高斯光以及高斯光公式解释
笔记
施努卡机器视觉6 天前
SNK施努卡侧滑门锁上滑轮总成自动化装配线,从零件到组件,全流程精密制造方案
运维·自动化·制造
cqbzcsq6 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
dayuOK63076 天前
写作卡壳怎么办?我的“5分钟启动法”
人工智能·职场和发展·自动化·新媒体运营·媒体
阿米亚波6 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.6 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
志栋智能6 天前
超自动化巡检:如何选择适合你的起点?
运维·自动化
HackTwoHub6 天前
Sqli-Scanner SQL注入SKILL自动化挖掘SQL注入,零依赖自动化SQL注入挖掘,赏金猎人
数据库·人工智能·sql·web安全·网络安全·自动化·系统安全