浏览器自动化与AI Agent结合项目browser-use初探

browser-use介绍

browser-use是将您的 AI 代理连接到浏览器的最简单方式。它通过提供一个强大且简单的接口来实现 AI 代理访问网站的自动化。

GitHub地址：https://github.com/browser-use/browser-use。目前已经获得了27.3k颗stars，2.7kforks，看得出来是一个比较热门的项目。我在上手体验了之后，发现确实是一个很有趣的项目，因此推荐给大家。

实践

上手也非常简单，创建一个python虚拟环境，pip install browser-use，再playwright install即可。

现在需要进行LLM的配置，官方推荐使用gpt-4o，但是为了降低成本，方便让看了教程感兴趣的人能够方便上手，这里我使用的是硅基流动提供的模型。目前硅基流动注册送14元不过期额度，够用一段时间的了，邀请链接：https://cloud.siliconflow.cn/i/Ia3zOSCU。如果你的额度不够了，但是也想体验一下，可以私聊我，我可以提供一个api key暂时供你快速上手体验，额度用差不多了，我就停止了。

创建一个.env文件，这样写：

python 复制代码

Silicon_Cloud_API_KEY=xxx
Base_URL=https://api.siliconflow.cn
Model=Qwen/Qwen2.5-72B-Instruct

创建一个test脚本，这样写：

python 复制代码

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取https://github.com/OpenInterpreter/open-interpreter仓库的前五个问题",
        llm=llm,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

查看效果：

还生成了一个agent_history.gif可以查看流程：

将结果与实际对比：

可以发现browser-use非常准确的获取了。

再使用一个更普遍的例子，就是获取当前微博前十的热搜。

python 复制代码

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取当前微博前十的热搜",
        llm=llm,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

最后

以上就是使用硅基流动中的Qwen/Qwen2.5-72B-Instruct快速体验browser-use的效果。初步体验感觉是一个很有潜力的项目，将AI Agent与浏览器自动化结合确实可以做很多事情。