使用MCP服务器控制浏览器的AI代理

简介

MCP(Multi-Control Protocol)服务器是一种允许AI代理控制浏览器的工具,通过使用browser-use包实现浏览器自动化。它支持两种传输模式:SSE(Server-Sent Events)和stdio。

基础知识点

  1. 浏览器自动化:使用Playwright等工具来控制浏览器的行为,如打开网页、点击按钮等。
  2. MCP协议:一种用于AI代理与浏览器之间通信的协议,支持SSE和stdio两种传输方式。
  3. VNC流媒体:允许实时观看浏览器自动化过程。

安装步骤

1. 安装依赖

首先,需要安装uv工具和mcp-proxy

bash 复制代码
curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install mcp-proxy
uv tool update-shell

2. 配置环境

创建一个.env文件,设置必要的环境变量:

bash 复制代码
OPENAI_API_KEY=your-api-key
CHROME_PATH=optional/path/to/chrome
PATIENT=false  # 设置为true时,API调用将等待任务完成

3. 安装依赖包

使用uv安装必要的Python包:

bash 复制代码
uv sync
uv pip install playwright
uv run playwright install --with-deps --no-shell chromium

运行服务器

SSE模式

直接从源代码运行服务器:

bash 复制代码
uv run server --port 8000

stdio模式

  1. 构建并安装全局包
bash 复制代码
uv build
uv tool uninstall browser-use-mcp-server 2>/dev/null || true
uv tool install dist/browser_use_mcp_server-*.whl
  1. 运行服务器
bash 复制代码
browser-use-mcp-server run server --port 8000 --stdio --proxy-port 9000

客户端配置

SSE模式客户端配置

json 复制代码
{
  "mcpServers": {
    "browser-use-mcp-server": {
      "url": "http://localhost:8000/sse"
    }
  }
}

stdio模式客户端配置

json 复制代码
{
  "mcpServers": {
    "browser-server": {
      "command": "browser-use-mcp-server",
      "args": [
        "run",
        "server",
        "--port",
        "8000",
        "--stdio",
        "--proxy-port",
        "9000"
      ],
      "env": {
        "OPENAI_API_KEY": "your-api-key"
      }
    }
  }
}

Docker部署

使用Docker可以提供一个一致且隔离的环境来运行服务器。

构建Docker镜像

perl 复制代码
bash
docker build -t browser-use-mcp-server .

运行容器

bash 复制代码
docker run --rm -p8000:8000 -p5900:5900 browser-use-mcp-server

自定义VNC密码

创建一个包含密码的文件,然后将其挂载到容器中:

bash 复制代码
echo "your-secure-password" > vnc_password.txt
docker run --rm -p8000:8000 -p5900:5900 \
  -v $(pwd)/vnc_password.txt:/run/secrets/vnc_password:ro \
  browser-use-mcp-server

VNC查看器

使用noVNC作为浏览器查看器:

bash 复制代码
git clone https://github.com/novnc/noVNC
cd noVNC
./utils/novnc_proxy --vnc localhost:5900

默认密码为browser-use,除非使用自定义密码方法覆盖。

示例用法

尝试使用AI代理打开网页并获取顶级文章:

bash 复制代码
open https://news.ycombinator.com and return the top ranked article
相关推荐
阿维的博客日记2 小时前
Hippo4j 线程池监控平台部署手册
java·spring boot·后端
万少4 小时前
AtomCode开发微信小程序《谁去呀》 全流程
前端·javascript·后端
GetcharZp4 小时前
Epic、暴雪都在用的 C++ 界面利器:Dear ImGui 零基础全景指南
后端
pixcarp5 小时前
知识库系统的内容资产闭环怎么设计
服务器·数据库·后端·golang
红尘散仙5 小时前
别再手动录屏了:用 VHS 给终端应用生成会动的文档素材
后端·rust
江畔柳前堤5 小时前
github实战指南01-账号配置与 SSH 密钥
运维·人工智能·深度学习·ssh·github·pyqt·信号处理
kyriewen7 小时前
从本地到生产:迁移到 GitHub Actions 自动化 CI/CD,总结了这 5 个坑
前端·github·自动化运维
张忠琳8 小时前
【Go 1.26.4】Golang Select 深度解析
开发语言·后端·golang
IT_陈寒8 小时前
React中useEffect依赖项这个坑我居然踩了三天
前端·人工智能·后端
江畔柳前堤8 小时前
github实战指南02-仓库管理与 Issue
人工智能·深度学习·github·信号处理·caffe·wps·issue