Browser Use — AI驱动浏览器自动化的全新范式

什么是 Browser Use?

Browser Use 是一个开源的浏览器自动化工具生态,核心项目包括 browser-harness ------ 一个轻量级、可编辑的 CDP (Chrome DevTools Protocol) 控制层,让 AI 能够直接操控你的真实 Chrome 浏览器。

它的设计理念是:"你将永远不再亲自操作浏览器"。AI 代理通过截图、坐标点击和 JS 执行来操控页面,仿佛给浏览器装上了眼睛和双手。

为什么选择 Browser Use?

1. 极简架构

核心代码只有约 1000 行,分布在 4 个文件中。没有冗余的抽象层、重试框架或复杂配置。

2. 截图优先的交互模式

传统自动化工具(Selenium/Playwright)要求你找到选择器才能点击。Browser Harness 反其道而行之:

  • 先截图 → 看像素坐标
  • 坐标点击 click_at_xy(x, y) → 穿透 iframe/阴影 DOM/跨域
  • 再截图验证 结果

3. 连接真实 Chrome

不需要启动新的浏览器实例。直接连接你正在使用的 Chrome,登录态、Cookie、扩展全部保留。

4. 原始 CDP 能力

可以直接调用任意 Chrome DevTools 协议方法,没有封装损耗。

快速上手

安装

Setup prompt

bash 复制代码
Set up https://github.com/browser-use/browser-harness for me.

Read `install.md` and follow the steps to install browser-harness and connect it to my browser.
bash 复制代码
git clone https://github.com/browser-use/browser-harness
cd browser-harness
uv tool install -e .

连接浏览器

  1. 在 Chrome 地址栏输入 chrome://inspect/#remote-debugging
  2. 勾选 "Allow remote debugging for this browser instance"
  3. 运行测试:
bash 复制代码
browser-harness <<'PY'
new_tab("https://example.com")
wait_for_load()
print(page_info())
PY

第一个脚本

python 复制代码
browser-harness <<'PY'
new_tab("https://www.baidu.com")
wait_for_load()
capture_screenshot("baidu.png")
click_at_xy(500, 300)
wait_for_load()
print(page_info())
PY

主要能力

能力 说明
页面导航 打开新标签页、切换标签页、跳转 URL
截图识别 截取页面截图,通过像素坐标点击
坐标点击 click_at_xy(x, y) 穿透 iframe/Shadow DOM
JS 执行 在页面中运行 JavaScript
HTTP 请求 http_get(url) 直接发请求,不走浏览器
原始 CDP 调用任意 Chrome DevTools 协议
云浏览器 连接 Browser Use 云端隔离浏览器

设计哲学

Browser Harness 坚持以下原则:

  • 坐标点击优先 :通过 Input.dispatchMouseEvent 在合成层级发送鼠标事件,穿透 iframe/阴影 DOM/跨域限制
  • 连接真实浏览器:不启动新实例,直接复用用户的 Chrome
  • 核心保持简洁:不添加重试框架、会话管理器、配置系统
  • 自我进化 :代理在执行中发现缺失的工具函数时,可以直接写入 agent_helpers.py

总结

Browser Use 代表了浏览器自动化的新范式------不再是"找选择器→点击",而是"截图→坐标点击→验证",更接近人类操作浏览器的方式。配合 LLM 的视觉能力,可以处理任何复杂度的 Web 任务。

这篇介绍博客也是使用了Browser Use完整流程发布的,然后我再进行编辑修改的;

安装到发布文章接近300w token消耗还是挺大的,差不多3毛钱左右

相关推荐
疯狂打码的少年1 小时前
Cache的三种映射方式(直接/全相联/组相联)
linux·服务器·数据库·笔记
志栋智能1 小时前
超自动化安全:实现安全运营现代化的关键
大数据·运维·网络·安全·自动化
RainCity2 小时前
Java Swing 自定义组件库分享(十)
java·笔记·后端
FakeOccupational2 小时前
【数学 代数学】无理数:\sqrt2和\pi 是无理数的证明 + 无理数集合的“非正则”性质(暂记)
笔记
一次旅行3 小时前
实战指南:基于开源工具链构建自动化演示文稿生成工作流
运维·开源·自动化
是小王同学啊~3 小时前
Kafka 面试通关笔记:高频八股 + 生产实战 + 追问链路(上)
笔记·面试·kafka
AOwhisky3 小时前
Ceph系列第三期:Ceph 集群核心配置与管理
linux·运维·数据库·笔记·ceph
我命由我123453 小时前
UGC、PGC、PUGC 极简理解
经验分享·笔记·学习·职场和发展·求职招聘·职场发展·学习方法
智者知已应修善业4 小时前
【51单片机象棋快棋赛 电子裁判器】2023-12-27
c++·经验分享·笔记·算法·51单片机