browser-use - 让AI Agent真正“会“用浏览器

最近做AI Agent相关开发时，有个问题一直挺让人头疼：怎么让AI真正操作网页？ Selenium、Playwright这些传统工具虽然好用，但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目，它的思路挺有意思------让AI Agent像人一样用浏览器。

这是个开源项目，GitHub上已经有 76,000+ Stars。用法简单到有点离谱：告诉AI要做什么，它自己就打开浏览器、找页面、点按钮、填表单，搞定。

https://github.com/browser-use/browser-use

技术架构

browser-use用了Agent + Browser + LLM三层结构：

Agent层：负责任务规划和步骤拆分，把自然语言转成浏览器操作
Browser层：封装了Playwright，支持本地Chrome和远程Cloud两种模式
LLM层：项目搞了个专门优化的ChatBrowserUse模型，官方数据说比通用模型快3-5倍

代码用Python异步模式写的，性能还行。98%以上都是Python，结构挺清楚，容易看懂和改。

另外项目有个官方Cloud服务，能解决本地跑浏览器的内存和反爬问题。Cloud版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。

核心功能

1. 自然语言任务定义

不需要编写复杂的XPath选择器或CSS定位代码，只需用自然语言描述任务目标。比如"帮我找到browser-use仓库的Star数量"，Agent会自动解析任务，规划步骤，然后执行。

2. 智能页面交互

Agent能够理解网页结构，智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗，都能像人类用户一样自然应对。项目基于Playwright构建，继承了其强大的浏览器控制能力。

3. 多平台表单自动填写

这个功能可能是最实用的。拿找工作来说，准备一份简历，让Agent自动访问招聘网站，逐项填表。省得自己一遍遍填那些重复的信息。

4. 电商采购自动化

网上买菜这种事，交给Agent就行。告诉它要买什么，它打开Instacart或别的平台，搜索、比价、加购物车、结算，一套流程自己搞定。

5. 智能研究助手

要装机不知道怎么选配置？Agent能去PCPartPicker这类网站，根据预算和需求帮你挑配件，还能检查兼容性。

6. 自定义工具扩展

想加个新功能？写个Python函数，用装饰器一注册就行。扩展起来挺方便的。

快速开始

安装挺简单的，推荐用uv：

bash 复制代码

# 创建项目环境
uv init

# 安装browser-use包
uv add browser-use
uv sync

# 安装Chromium浏览器
uvx browser-use install

去Browser Use Cloud拿个API Key（新用户送$10），放到.env文件：

bash 复制代码

BROWSER_USE_API_KEY=your-key

然后就能写第一个Agent了：

python 复制代码

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def example():
    browser = Browser()
    llm = ChatBrowserUse()

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=llm,
        browser=browser,
    )

    history = await agent.run()
    return history

if __name__ == "__main__":
    history = asyncio.run(example())

就这几行，Agent会自动打开浏览器、访问GitHub、找到Star数。

项目还有个模板快速生成功能：

bash 复制代码

uvx browser-use init --template default

有default、advanced、tools三种模板，直接拿来改就行。

总结

browser-use是个挺实用的工具，解决了AI操作网页这个真实痛点。

项目在GitHub上增长很快，社区也挺活跃。如果你在做AI Agent相关开发，或者有网页自动化的需求，可以试试。