【Python】Browser-Use:让 AI 替你掌控浏览器,开启智能自动化新时代!

Browser-Use:让 AI 替你掌控浏览器,开启智能自动化新时代!

Github地址: https://github.com/browser-use/browser-use/tree/main


在 AI 浪潮席卷的今天,我们是否想过让 AI 不仅仅是聊天、生成内容,而是能像人一样实际操作我们的电脑,尤其是浏览器?手动执行重复的网页任务既耗时又乏味,而 browser-use 项目的出现,正是为了解决这个问题!

browser-use 是一个强大的 Python 库,它能让你轻松地将 AI 代理(Agent)与浏览器连接起来,实现用自然语言指令驱动浏览器完成各种复杂任务。 想象一下,你只需要告诉 AI "帮我比较 gpt-4o 和 DeepSeek-V3 的价格",或者"把我最新的 LinkedIn 关注者添加到 Salesforce 的潜在客户列表",AI 就能自动打开浏览器、浏览网页、提取信息、填写表单、点击按钮,最终完成你的指令。

🚀 browser-use 的核心优势

  1. 易于上手 : 只需简单的 pip 安装和几行 Python 代码,就能快速启动你的第一个浏览器 AI 代理。
  2. 强大的 AI 支持 : 集成了 langchain-openai,可以方便地接入 GPT-4o 等先进的 LLM 模型。同时支持配置多种 AI Provider(OpenAI, Anthropic, Azure, Gemini, DeepSeek 等),只需在 .env 文件中添加对应的 API Key。
  3. 云端托管版本 ☁️ : 不想本地配置环境?browser-use 提供了云端托管版本,让你跳过所有设置步骤,即刻体验浏览器自动化。
  4. 可视化测试 UI: 提供了 Gradio 示例和独立的 Web UI 仓库,方便进行交互式测试和演示。
  5. 丰富的示例 Demos : 项目提供了多个引人入胜的用例,直观展示 browser-use 的强大能力(详见下文描述)。
  6. 活跃的社区 : 拥有活跃的 Discord 社区,可以与其他开发者交流、分享项目、获取帮助。
  7. 清晰的文档 📕 : 提供详细的官方文档,涵盖安装、配置、使用及开发细节。
  8. 明确的愿景和路线图: 项目致力于实现"告诉电脑做什么,它就能完成"的愿景,并有清晰的 Roadmap,包括改进 Agent 记忆、增强规划能力、优化 DOM 提取、降低 Token 消耗、支持工作流模板、构建数据集等。

🛠️ 快速开始

环境要求: Python >= 3.11

  1. 安装 browser-use:

    bash 复制代码
    pip install browser-use
  2. 安装 Playwright 浏览器驱动: (以 chromium 为例)

    bash 复制代码
    playwright install chromium
  3. 配置 API Keys :

    在你的项目根目录下创建一个 .env 文件,并添加你所需使用的 LLM Provider 的 API Key:

    env 复制代码
    OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx
    ANTHROPIC_API_KEY=sk-ant-xxxxxxxxxxxxxxx
    # AZURE_ENDPOINT=YOUR_AZURE_ENDPOINT
    # AZURE_OPENAI_API_KEY=YOUR_AZURE_API_KEY
    # GEMINI_API_KEY=YOUR_GEMINI_API_KEY
    # DEEPSEEK_API_KEY=YOUR_DEEPSEEK_API_KEY
  4. 编写你的第一个 Agent:

    python 复制代码
    from langchain_openai import ChatOpenAI
    from browser_use import Agent
    import asyncio
    from dotenv import load_dotenv
    
    # 加载 .env 文件中的环境变量
    load_dotenv()
    
    async def main():
        agent = Agent(
            task="Compare the price of gpt-4o and DeepSeek-V3", # 你的任务指令
            llm=ChatOpenAI(model="gpt-4o"), # 选择使用的 LLM
            # 更多配置项请参考文档
        )
        # 运行 Agent,它会自动控制浏览器完成任务
        await agent.run()
    
    if __name__ == "__main__":
        asyncio.run(main())

就是这么简单!运行这段代码,browser-use 就会启动一个浏览器实例,并尝试根据你的指令 "Compare the price of gpt-4o and DeepSeek-V3" 进行网页浏览和信息提取。

✨ Demos 用例描述

browser-use 的能力远不止于此,看看这些它能完成的任务:

  • AI 帮你购物: 自动将指定的生鲜商品加入在线超市的购物车,并完成结账流程。
  • 自动化 CRM: 访问 LinkedIn,找到你最新的关注者,然后登录 Salesforce,将该关注者的信息添加为新的潜在客户。
  • 智能求职: 读取本地存储的简历文件,根据简历内容在招聘网站上搜索匹配的机器学习相关职位,将找到的职位信息保存到本地文件,然后自动在新的浏览器标签页中打开这些职位的申请页面,开始填写申请(如果遇到困难会请求用户帮助)。
  • 文档操作: 打开 Google Docs,撰写一封给特定收件人(如"Papa")的感谢信,表达感谢之情,然后将该文档保存为 PDF 文件。
  • 数据提取与处理 : 访问 Hugging Face 网站,筛选出使用 cc-by-sa-4.0 许可证的模型,按照点赞数量进行排序,并将排名最高的 5 个模型的信息(如名称、链接等)提取并保存到本地文件中。

更多精彩示例可以在 examples 文件夹 中找到对应的 Python 脚本。

总结

browser-use 为我们打开了一扇通往 AI 驱动的浏览器自动化的新大门。它将强大的 LLM 能力与成熟的 Playwright 浏览器控制相结合,提供了简单易用且功能丰富的解决方案。无论你是想自动化处理日常的网页任务、构建复杂的工作流,还是探索 AI Agent 的前沿应用,browser-use 都值得一试!

相关推荐
snowfoootball12 分钟前
基于 Ollama DeepSeek、Dify RAG 和 Fay 框架的高考咨询 AI 交互系统项目方案
前端·人工智能·后端·python·深度学习·高考
云和数据.ChenGuang20 分钟前
机器学习之回归算法
人工智能·机器学习·回归
odoo中国35 分钟前
深度学习 Deep Learning 第15章 表示学习
人工智能·深度学习·学习·表示学习
橙色小博1 小时前
长短期记忆神经网络(LSTM)基础学习与实例:预测序列的未来
人工智能·python·深度学习·神经网络·lstm
SsummerC1 小时前
【leetcode100】每日温度
数据结构·python·leetcode
深蓝学院1 小时前
闭环SOTA!北航DiffAD:基于扩散模型实现端到端自动驾驶「多任务闭环统一」
人工智能·机器学习·自动驾驶
jimmyleeee1 小时前
人工智能基础知识笔记七:随机变量的几种分布
人工智能·笔记·概率论
仙人掌_lz1 小时前
机器学习ML极简指南
人工智能·python·算法·机器学习·面试·强化学习
船长@Quant1 小时前
PyTorch量化进阶教程:第六章 模型部署与生产化
pytorch·python·深度学习·transformer·量化交易·sklearn·ta-lib
叫我王富贵i1 小时前
0基础入门scrapy 框架,获取豆瓣top250存入mysql
爬虫·python·scrapy