【Python】Browser-Use:让 AI 替你掌控浏览器,开启智能自动化新时代!

Browser-Use:让 AI 替你掌控浏览器,开启智能自动化新时代!

Github地址: https://github.com/browser-use/browser-use/tree/main


在 AI 浪潮席卷的今天,我们是否想过让 AI 不仅仅是聊天、生成内容,而是能像人一样实际操作我们的电脑,尤其是浏览器?手动执行重复的网页任务既耗时又乏味,而 browser-use 项目的出现,正是为了解决这个问题!

browser-use 是一个强大的 Python 库,它能让你轻松地将 AI 代理(Agent)与浏览器连接起来,实现用自然语言指令驱动浏览器完成各种复杂任务。 想象一下,你只需要告诉 AI "帮我比较 gpt-4o 和 DeepSeek-V3 的价格",或者"把我最新的 LinkedIn 关注者添加到 Salesforce 的潜在客户列表",AI 就能自动打开浏览器、浏览网页、提取信息、填写表单、点击按钮,最终完成你的指令。

🚀 browser-use 的核心优势

  1. 易于上手 : 只需简单的 pip 安装和几行 Python 代码,就能快速启动你的第一个浏览器 AI 代理。
  2. 强大的 AI 支持 : 集成了 langchain-openai,可以方便地接入 GPT-4o 等先进的 LLM 模型。同时支持配置多种 AI Provider(OpenAI, Anthropic, Azure, Gemini, DeepSeek 等),只需在 .env 文件中添加对应的 API Key。
  3. 云端托管版本 ☁️ : 不想本地配置环境?browser-use 提供了云端托管版本,让你跳过所有设置步骤,即刻体验浏览器自动化。
  4. 可视化测试 UI: 提供了 Gradio 示例和独立的 Web UI 仓库,方便进行交互式测试和演示。
  5. 丰富的示例 Demos : 项目提供了多个引人入胜的用例,直观展示 browser-use 的强大能力(详见下文描述)。
  6. 活跃的社区 : 拥有活跃的 Discord 社区,可以与其他开发者交流、分享项目、获取帮助。
  7. 清晰的文档 📕 : 提供详细的官方文档,涵盖安装、配置、使用及开发细节。
  8. 明确的愿景和路线图: 项目致力于实现"告诉电脑做什么,它就能完成"的愿景,并有清晰的 Roadmap,包括改进 Agent 记忆、增强规划能力、优化 DOM 提取、降低 Token 消耗、支持工作流模板、构建数据集等。

🛠️ 快速开始

环境要求: Python >= 3.11

  1. 安装 browser-use:

    bash 复制代码
    pip install browser-use
  2. 安装 Playwright 浏览器驱动: (以 chromium 为例)

    bash 复制代码
    playwright install chromium
  3. 配置 API Keys :

    在你的项目根目录下创建一个 .env 文件,并添加你所需使用的 LLM Provider 的 API Key:

    env 复制代码
    OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx
    ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxxxx
    # AZURE_ENDPOINT=YOUR_AZURE_ENDPOINT
    # AZURE_OPENAI_API_KEY=YOUR_AZURE_API_KEY
    # GEMINI_API_KEY=YOUR_GEMINI_API_KEY
    # DEEPSEEK_API_KEY=YOUR_DEEPSEEK_API_KEY
  4. 编写你的第一个 Agent:

    python 复制代码
    from langchain_openai import ChatOpenAI
    from browser_use import Agent
    import asyncio
    from dotenv import load_dotenv
    
    # 加载 .env 文件中的环境变量
    load_dotenv()
    
    async def main():
        agent = Agent(
            task="Compare the price of gpt-4o and DeepSeek-V3", # 你的任务指令
            llm=ChatOpenAI(model="gpt-4o"), # 选择使用的 LLM
            # 更多配置项请参考文档
        )
        # 运行 Agent,它会自动控制浏览器完成任务
        await agent.run()
    
    if __name__ == "__main__":
        asyncio.run(main())

就是这么简单!运行这段代码,browser-use 就会启动一个浏览器实例,并尝试根据你的指令 "Compare the price of gpt-4o and DeepSeek-V3" 进行网页浏览和信息提取。

✨ Demos 用例描述

browser-use 的能力远不止于此,看看这些它能完成的任务:

  • AI 帮你购物: 自动将指定的生鲜商品加入在线超市的购物车,并完成结账流程。
  • 自动化 CRM: 访问 LinkedIn,找到你最新的关注者,然后登录 Salesforce,将该关注者的信息添加为新的潜在客户。
  • 智能求职: 读取本地存储的简历文件,根据简历内容在招聘网站上搜索匹配的机器学习相关职位,将找到的职位信息保存到本地文件,然后自动在新的浏览器标签页中打开这些职位的申请页面,开始填写申请(如果遇到困难会请求用户帮助)。
  • 文档操作: 打开 Google Docs,撰写一封给特定收件人(如"Papa")的感谢信,表达感谢之情,然后将该文档保存为 PDF 文件。
  • 数据提取与处理 : 访问 Hugging Face 网站,筛选出使用 cc-by-sa-4.0 许可证的模型,按照点赞数量进行排序,并将排名最高的 5 个模型的信息(如名称、链接等)提取并保存到本地文件中。

更多精彩示例可以在 examples 文件夹 中找到对应的 Python 脚本。

总结

browser-use 为我们打开了一扇通往 AI 驱动的浏览器自动化的新大门。它将强大的 LLM 能力与成熟的 Playwright 浏览器控制相结合,提供了简单易用且功能丰富的解决方案。无论你是想自动化处理日常的网页任务、构建复杂的工作流,还是探索 AI Agent 的前沿应用,browser-use 都值得一试!

相关推荐
数据智能老司机37 分钟前
精通 Python 设计模式——分布式系统模式
python·设计模式·架构
逛逛GitHub38 分钟前
飞书多维表“独立”了!功能强大的超出想象。
人工智能·github·产品
机器之心1 小时前
刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
人工智能·openai
数据智能老司机2 小时前
精通 Python 设计模式——并发与异步模式
python·设计模式·编程语言
数据智能老司机2 小时前
精通 Python 设计模式——测试模式
python·设计模式·架构
数据智能老司机2 小时前
精通 Python 设计模式——性能模式
python·设计模式·架构
c8i2 小时前
drf初步梳理
python·django
每日AI新事件2 小时前
python的异步函数
python
这里有鱼汤3 小时前
miniQMT下载历史行情数据太慢怎么办?一招提速10倍!
前端·python
aneasystone本尊3 小时前
学习 Chat2Graph 的知识库服务
人工智能