最近做AI Agent相关开发时,有个问题一直挺让人头疼:怎么让AI真正操作网页? Selenium、Playwright这些传统工具虽然好用,但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目,它的思路挺有意思------让AI Agent像人一样用浏览器。
这是个开源项目,GitHub上已经有 76,000+ Stars。用法简单到有点离谱:告诉AI要做什么,它自己就打开浏览器、找页面、点按钮、填表单,搞定。
https://github.com/browser-use/browser-use

技术架构

browser-use用了Agent + Browser + LLM三层结构:
- Agent层:负责任务规划和步骤拆分,把自然语言转成浏览器操作
- Browser层:封装了Playwright,支持本地Chrome和远程Cloud两种模式
- LLM层:项目搞了个专门优化的ChatBrowserUse模型,官方数据说比通用模型快3-5倍
代码用Python异步模式写的,性能还行。98%以上都是Python,结构挺清楚,容易看懂和改。
另外项目有个官方Cloud服务,能解决本地跑浏览器的内存和反爬问题。Cloud版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。
核心功能
1. 自然语言任务定义

不需要编写复杂的XPath选择器或CSS定位代码,只需用自然语言描述任务目标。比如"帮我找到browser-use仓库的Star数量",Agent会自动解析任务,规划步骤,然后执行。
2. 智能页面交互
Agent能够理解网页结构,智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗,都能像人类用户一样自然应对。项目基于Playwright构建,继承了其强大的浏览器控制能力。
3. 多平台表单自动填写
这个功能可能是最实用的。拿找工作来说,准备一份简历,让Agent自动访问招聘网站,逐项填表。省得自己一遍遍填那些重复的信息。
4. 电商采购自动化
网上买菜这种事,交给Agent就行。告诉它要买什么,它打开Instacart或别的平台,搜索、比价、加购物车、结算,一套流程自己搞定。

5. 智能研究助手
要装机不知道怎么选配置?Agent能去PCPartPicker这类网站,根据预算和需求帮你挑配件,还能检查兼容性。
6. 自定义工具扩展

想加个新功能?写个Python函数,用装饰器一注册就行。扩展起来挺方便的。
快速开始
安装挺简单的,推荐用uv:
bash
# 创建项目环境
uv init
# 安装browser-use包
uv add browser-use
uv sync
# 安装Chromium浏览器
uvx browser-use install
去Browser Use Cloud拿个API Key(新用户送$10),放到.env文件:
bash
BROWSER_USE_API_KEY=your-key
然后就能写第一个Agent了:
python
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def example():
browser = Browser()
llm = ChatBrowserUse()
agent = Agent(
task="Find the number of stars of the browser-use repo",
llm=llm,
browser=browser,
)
history = await agent.run()
return history
if __name__ == "__main__":
history = asyncio.run(example())
就这几行,Agent会自动打开浏览器、访问GitHub、找到Star数。
项目还有个模板快速生成功能:
bash
uvx browser-use init --template default
有default、advanced、tools三种模板,直接拿来改就行。
总结
browser-use是个挺实用的工具,解决了AI操作网页这个真实痛点。
项目在GitHub上增长很快,社区也挺活跃。如果你在做AI Agent相关开发,或者有网页自动化的需求,可以试试。