browser-use - 让AI Agent真正“会“用浏览器

最近做AI Agent相关开发时,有个问题一直挺让人头疼:怎么让AI真正操作网页? Selenium、Playwright这些传统工具虽然好用,但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目,它的思路挺有意思------让AI Agent像人一样用浏览器。

这是个开源项目,GitHub上已经有 76,000+ Stars。用法简单到有点离谱:告诉AI要做什么,它自己就打开浏览器、找页面、点按钮、填表单,搞定。

https://github.com/browser-use/browser-use

技术架构

browser-use用了Agent + Browser + LLM三层结构:

  • Agent层:负责任务规划和步骤拆分,把自然语言转成浏览器操作
  • Browser层:封装了Playwright,支持本地Chrome和远程Cloud两种模式
  • LLM层:项目搞了个专门优化的ChatBrowserUse模型,官方数据说比通用模型快3-5倍

代码用Python异步模式写的,性能还行。98%以上都是Python,结构挺清楚,容易看懂和改。

另外项目有个官方Cloud服务,能解决本地跑浏览器的内存和反爬问题。Cloud版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。

核心功能

1. 自然语言任务定义

不需要编写复杂的XPath选择器或CSS定位代码,只需用自然语言描述任务目标。比如"帮我找到browser-use仓库的Star数量",Agent会自动解析任务,规划步骤,然后执行。

2. 智能页面交互

Agent能够理解网页结构,智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗,都能像人类用户一样自然应对。项目基于Playwright构建,继承了其强大的浏览器控制能力。

3. 多平台表单自动填写

这个功能可能是最实用的。拿找工作来说,准备一份简历,让Agent自动访问招聘网站,逐项填表。省得自己一遍遍填那些重复的信息。

4. 电商采购自动化

网上买菜这种事,交给Agent就行。告诉它要买什么,它打开Instacart或别的平台,搜索、比价、加购物车、结算,一套流程自己搞定。

5. 智能研究助手

要装机不知道怎么选配置?Agent能去PCPartPicker这类网站,根据预算和需求帮你挑配件,还能检查兼容性。

6. 自定义工具扩展

想加个新功能?写个Python函数,用装饰器一注册就行。扩展起来挺方便的。

快速开始

安装挺简单的,推荐用uv:

bash 复制代码
# 创建项目环境
uv init

# 安装browser-use包
uv add browser-use
uv sync

# 安装Chromium浏览器
uvx browser-use install

Browser Use Cloud拿个API Key(新用户送$10),放到.env文件:

bash 复制代码
BROWSER_USE_API_KEY=your-key

然后就能写第一个Agent了:

python 复制代码
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def example():
    browser = Browser()
    llm = ChatBrowserUse()

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=llm,
        browser=browser,
    )

    history = await agent.run()
    return history

if __name__ == "__main__":
    history = asyncio.run(example())

就这几行,Agent会自动打开浏览器、访问GitHub、找到Star数。

项目还有个模板快速生成功能:

bash 复制代码
uvx browser-use init --template default

有default、advanced、tools三种模板,直接拿来改就行。

总结

browser-use是个挺实用的工具,解决了AI操作网页这个真实痛点。

项目在GitHub上增长很快,社区也挺活跃。如果你在做AI Agent相关开发,或者有网页自动化的需求,可以试试。

相关推荐
devpotato3 分钟前
人工智能(四)- Function Calling 核心原理与实战
java·人工智能
进击的野人7 分钟前
MCP协议:让AI应用像插USB一样连接外部世界
人工智能·agent·mcp
清空mega7 分钟前
动手学深度学习——SSD
人工智能·深度学习
tinochen8 分钟前
我用 OpenClaw 搭了一套全自动 AI 行业简报系统,每天零干预推送到飞书
人工智能
何陋轩9 分钟前
OpenAI Codex深度解析:终端里的AI代码特工,一个指令重构整个项目
人工智能·面试
jarvisuni10 分钟前
三大编程智能体的RULES和SKILLS规范!
人工智能·ai编程
Kel14 分钟前
PydanticAI 源码深潜:类型安全依赖注入与图执行引擎的双核架构解析
人工智能·python·架构
后端开发基础免费分享14 分钟前
Claude Code 最全使用指南:CLAUDE.md、rules、skills、memory 一次讲清
人工智能·ai·claude·claudecode
亿坊电商16 分钟前
亿坊外贸商城系统-支持B2C,B2B多模式,让企业做外贸电商更简单!
人工智能·数据挖掘·外贸商城
小王毕业啦19 分钟前
2006-2023年 省级-建成区绿化覆盖率数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据