browser-use - 让AI Agent真正“会“用浏览器

最近做AI Agent相关开发时,有个问题一直挺让人头疼:怎么让AI真正操作网页? Selenium、Playwright这些传统工具虽然好用,但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目,它的思路挺有意思------让AI Agent像人一样用浏览器。

这是个开源项目,GitHub上已经有 76,000+ Stars。用法简单到有点离谱:告诉AI要做什么,它自己就打开浏览器、找页面、点按钮、填表单,搞定。

https://github.com/browser-use/browser-use

技术架构

browser-use用了Agent + Browser + LLM三层结构:

  • Agent层:负责任务规划和步骤拆分,把自然语言转成浏览器操作
  • Browser层:封装了Playwright,支持本地Chrome和远程Cloud两种模式
  • LLM层:项目搞了个专门优化的ChatBrowserUse模型,官方数据说比通用模型快3-5倍

代码用Python异步模式写的,性能还行。98%以上都是Python,结构挺清楚,容易看懂和改。

另外项目有个官方Cloud服务,能解决本地跑浏览器的内存和反爬问题。Cloud版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。

核心功能

1. 自然语言任务定义

不需要编写复杂的XPath选择器或CSS定位代码,只需用自然语言描述任务目标。比如"帮我找到browser-use仓库的Star数量",Agent会自动解析任务,规划步骤,然后执行。

2. 智能页面交互

Agent能够理解网页结构,智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗,都能像人类用户一样自然应对。项目基于Playwright构建,继承了其强大的浏览器控制能力。

3. 多平台表单自动填写

这个功能可能是最实用的。拿找工作来说,准备一份简历,让Agent自动访问招聘网站,逐项填表。省得自己一遍遍填那些重复的信息。

4. 电商采购自动化

网上买菜这种事,交给Agent就行。告诉它要买什么,它打开Instacart或别的平台,搜索、比价、加购物车、结算,一套流程自己搞定。

5. 智能研究助手

要装机不知道怎么选配置?Agent能去PCPartPicker这类网站,根据预算和需求帮你挑配件,还能检查兼容性。

6. 自定义工具扩展

想加个新功能?写个Python函数,用装饰器一注册就行。扩展起来挺方便的。

快速开始

安装挺简单的,推荐用uv:

bash 复制代码
# 创建项目环境
uv init

# 安装browser-use包
uv add browser-use
uv sync

# 安装Chromium浏览器
uvx browser-use install

Browser Use Cloud拿个API Key(新用户送$10),放到.env文件:

bash 复制代码
BROWSER_USE_API_KEY=your-key

然后就能写第一个Agent了:

python 复制代码
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def example():
    browser = Browser()
    llm = ChatBrowserUse()

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=llm,
        browser=browser,
    )

    history = await agent.run()
    return history

if __name__ == "__main__":
    history = asyncio.run(example())

就这几行,Agent会自动打开浏览器、访问GitHub、找到Star数。

项目还有个模板快速生成功能:

bash 复制代码
uvx browser-use init --template default

有default、advanced、tools三种模板,直接拿来改就行。

总结

browser-use是个挺实用的工具,解决了AI操作网页这个真实痛点。

项目在GitHub上增长很快,社区也挺活跃。如果你在做AI Agent相关开发,或者有网页自动化的需求,可以试试。

相关推荐
Fairy要carry2 小时前
面试-OnlyDecoder用于嵌入模型
人工智能
陈天伟教授2 小时前
人工智能应用-机器视觉:AI 鉴伪 03.换脸伪造技术
人工智能·神经网络·生成对抗网络
Yeats_Liao2 小时前
长文本优化:KV Cache机制与显存占用平衡策略
人工智能·深度学习·学习·机器学习·华为
石逸凡2 小时前
基于实体地图的金融大模型落地方法探索与前景展望
人工智能·金融
cooldream20092 小时前
辩核AI具身辩论数字人训练系统:技术架构与功能体系全解析
人工智能·架构·具身数字人
星爷AG I2 小时前
9-13 视知觉组织(AGI基础理论)
人工智能·agi
小草cys2 小时前
qwen3-max识别电气主接线图,不需要yolo辅助
人工智能·yolo·目标跟踪·多模态大模型·电气主接线图
小程故事多_802 小时前
A2UI协议,打破Agent交互壁垒,让智能系统自主“搭建”界面
人工智能·aigc·交互
薛定e的猫咪2 小时前
【NeurIPS 2024】MDAgents:用于医疗决策的自适应大型语言模型协作
人工智能·语言模型·自然语言处理