browser-use - 让AI Agent真正“会“用浏览器

最近做AI Agent相关开发时,有个问题一直挺让人头疼:怎么让AI真正操作网页? Selenium、Playwright这些传统工具虽然好用,但写代码定位元素、处理交互太费劲了。前阵子发现 browser-use 这个项目,它的思路挺有意思------让AI Agent像人一样用浏览器。

这是个开源项目,GitHub上已经有 76,000+ Stars。用法简单到有点离谱:告诉AI要做什么,它自己就打开浏览器、找页面、点按钮、填表单,搞定。

https://github.com/browser-use/browser-use

技术架构

browser-use用了Agent + Browser + LLM三层结构:

  • Agent层:负责任务规划和步骤拆分,把自然语言转成浏览器操作
  • Browser层:封装了Playwright,支持本地Chrome和远程Cloud两种模式
  • LLM层:项目搞了个专门优化的ChatBrowserUse模型,官方数据说比通用模型快3-5倍

代码用Python异步模式写的,性能还行。98%以上都是Python,结构挺清楚,容易看懂和改。

另外项目有个官方Cloud服务,能解决本地跑浏览器的内存和反爬问题。Cloud版提供了隐身浏览器、代理轮换、内存管理这些生产需要的东西。

核心功能

1. 自然语言任务定义

不需要编写复杂的XPath选择器或CSS定位代码,只需用自然语言描述任务目标。比如"帮我找到browser-use仓库的Star数量",Agent会自动解析任务,规划步骤,然后执行。

2. 智能页面交互

Agent能够理解网页结构,智能识别可交互元素。无论是点击按钮、填写表单、滚动页面还是处理弹窗,都能像人类用户一样自然应对。项目基于Playwright构建,继承了其强大的浏览器控制能力。

3. 多平台表单自动填写

这个功能可能是最实用的。拿找工作来说,准备一份简历,让Agent自动访问招聘网站,逐项填表。省得自己一遍遍填那些重复的信息。

4. 电商采购自动化

网上买菜这种事,交给Agent就行。告诉它要买什么,它打开Instacart或别的平台,搜索、比价、加购物车、结算,一套流程自己搞定。

5. 智能研究助手

要装机不知道怎么选配置?Agent能去PCPartPicker这类网站,根据预算和需求帮你挑配件,还能检查兼容性。

6. 自定义工具扩展

想加个新功能?写个Python函数,用装饰器一注册就行。扩展起来挺方便的。

快速开始

安装挺简单的,推荐用uv:

bash 复制代码
# 创建项目环境
uv init

# 安装browser-use包
uv add browser-use
uv sync

# 安装Chromium浏览器
uvx browser-use install

Browser Use Cloud拿个API Key(新用户送$10),放到.env文件:

bash 复制代码
BROWSER_USE_API_KEY=your-key

然后就能写第一个Agent了:

python 复制代码
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def example():
    browser = Browser()
    llm = ChatBrowserUse()

    agent = Agent(
        task="Find the number of stars of the browser-use repo",
        llm=llm,
        browser=browser,
    )

    history = await agent.run()
    return history

if __name__ == "__main__":
    history = asyncio.run(example())

就这几行,Agent会自动打开浏览器、访问GitHub、找到Star数。

项目还有个模板快速生成功能:

bash 复制代码
uvx browser-use init --template default

有default、advanced、tools三种模板,直接拿来改就行。

总结

browser-use是个挺实用的工具,解决了AI操作网页这个真实痛点。

项目在GitHub上增长很快,社区也挺活跃。如果你在做AI Agent相关开发,或者有网页自动化的需求,可以试试。

相关推荐
火山引擎开发者社区21 小时前
从 Vibe Coding 到 Agentic Engineering:ArkClaw + Supabase,打造你的私有化 Agent 工厂
人工智能
七牛云行业应用1 天前
GPT-5.4 mini 与 nano 深度评测:核心差异、API 成本实测与选型指南
人工智能·openai·api调用·gpt-5.4·大模型降本
cxr8281 天前
PaperclipAI 组织关系与智能体协作指南
数据库·人工智能·架构·ai智能体·openclaw
大傻^1 天前
Spring AI Alibaba RAG实战:基于向量存储的检索增强生成
java·人工智能·spring
Physicist in Geophy.1 天前
claude code workflow
人工智能
大傻^1 天前
Spring AI Alibaba 快速入门:基于通义千问的AI应用开发环境搭建
java·人工智能·后端·spring·springai·springaialibaba
跨境卫士-小汪1 天前
高风险订单识别不足如何设置拦截与二次核验
大数据·人工智能·产品运营·跨境电商·营销策略
心勤则明1 天前
用 Spring AI Alibaba 打造智能查询增强引擎
java·人工智能·spring
njsgcs1 天前
图卷积是如何处理不同输入长度的 消息传递
人工智能