什么是 Browser Use?
Browser Use 是一个开源工具,允许你使用 AI 控制浏览器。它通过连接 AI 代理与浏览器,实现自动化浏览器操作。这种技术可以帮助你完成复杂的任务,如自动化网页操作、数据收集等。
安装和使用
-
安装 Browser Use:
perlbash pip install browser-use
并安装 Playwright:
bash playwright install chromium
-
设置环境变量 :
在
.env
文件中添加你的 API 密钥(如 OpenAI API 密钥)。 -
运行示例代码:
pythonpython from langchain_openai import ChatOpenAI from browser_use import Agent import asyncio from dotenv import load_dotenv load_dotenv() async def main(): agent = Agent( task="比较 gpt-4o 和 DeepSeek-V3 的价格", llm=ChatOpenAI(model="gpt-4o"), ) await agent.run() asyncio.run(main())
示例任务
- 添加购物车商品并结账。
- 将最新的 LinkedIn 关注者添加到 Salesforce 的潜在客户列表中。
- 读取简历,找到机器学习工作并保存到文件,然后在新标签页中申请这些工作。
- 在 Google Docs 中给父亲写信并保存为 PDF。
- 在 Hugging Face 上查找 cc-by-sa-4.0 许可的模型,按最多点赞排序,并保存前五名到文件。
未来发展
Browser Use 的未来计划包括:
- 改进代理记忆和规划能力。
- 增强 DOM 元素的提取和状态表示。
- 支持重复运行任务和使用 LLM 作为后备。
- 创建复杂任务的数据集并对比不同模型的性能。
贡献和合作
欢迎通过 GitHub 提交 bug 报告或功能请求。Browser Use 还鼓励社区参与,共同定义 UI/UX 设计最佳实践,以提高 AI 代理的性能。