使用MCP服务器控制浏览器的AI代理

简介

MCP(Multi-Control Protocol)服务器是一种允许AI代理控制浏览器的工具,通过使用browser-use包实现浏览器自动化。它支持两种传输模式:SSE(Server-Sent Events)和stdio。

基础知识点

  1. 浏览器自动化:使用Playwright等工具来控制浏览器的行为,如打开网页、点击按钮等。
  2. MCP协议:一种用于AI代理与浏览器之间通信的协议,支持SSE和stdio两种传输方式。
  3. VNC流媒体:允许实时观看浏览器自动化过程。

安装步骤

1. 安装依赖

首先,需要安装uv工具和mcp-proxy

bash 复制代码
curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install mcp-proxy
uv tool update-shell

2. 配置环境

创建一个.env文件,设置必要的环境变量:

bash 复制代码
OPENAI_API_KEY=your-api-key
CHROME_PATH=optional/path/to/chrome
PATIENT=false  # 设置为true时,API调用将等待任务完成

3. 安装依赖包

使用uv安装必要的Python包:

bash 复制代码
uv sync
uv pip install playwright
uv run playwright install --with-deps --no-shell chromium

运行服务器

SSE模式

直接从源代码运行服务器:

bash 复制代码
uv run server --port 8000

stdio模式

  1. 构建并安装全局包
bash 复制代码
uv build
uv tool uninstall browser-use-mcp-server 2>/dev/null || true
uv tool install dist/browser_use_mcp_server-*.whl
  1. 运行服务器
bash 复制代码
browser-use-mcp-server run server --port 8000 --stdio --proxy-port 9000

客户端配置

SSE模式客户端配置

json 复制代码
{
  "mcpServers": {
    "browser-use-mcp-server": {
      "url": "http://localhost:8000/sse"
    }
  }
}

stdio模式客户端配置

json 复制代码
{
  "mcpServers": {
    "browser-server": {
      "command": "browser-use-mcp-server",
      "args": [
        "run",
        "server",
        "--port",
        "8000",
        "--stdio",
        "--proxy-port",
        "9000"
      ],
      "env": {
        "OPENAI_API_KEY": "your-api-key"
      }
    }
  }
}

Docker部署

使用Docker可以提供一个一致且隔离的环境来运行服务器。

构建Docker镜像

perl 复制代码
bash
docker build -t browser-use-mcp-server .

运行容器

bash 复制代码
docker run --rm -p8000:8000 -p5900:5900 browser-use-mcp-server

自定义VNC密码

创建一个包含密码的文件,然后将其挂载到容器中:

bash 复制代码
echo "your-secure-password" > vnc_password.txt
docker run --rm -p8000:8000 -p5900:5900 \
  -v $(pwd)/vnc_password.txt:/run/secrets/vnc_password:ro \
  browser-use-mcp-server

VNC查看器

使用noVNC作为浏览器查看器:

bash 复制代码
git clone https://github.com/novnc/noVNC
cd noVNC
./utils/novnc_proxy --vnc localhost:5900

默认密码为browser-use,除非使用自定义密码方法覆盖。

示例用法

尝试使用AI代理打开网页并获取顶级文章:

bash 复制代码
open https://news.ycombinator.com and return the top ranked article
相关推荐
柒.梧.11 分钟前
Java基础高频面试题(含详细解析+易错点,面试必看)
java·开发语言·面试
用户73440281934244 分钟前
SpringBoot —— 实现邮件、短信的发送功能
后端
写Cpp的小黑黑1 小时前
WebRTC建立流程详解 - 基于WHEP协议
后端
大大花猫1 小时前
求职简历的几个小建议
面试
程序员Leo1 小时前
OpenClaw 配置指南:DeepSeek 与 飞书集成
后端·agent
张元清2 小时前
React Hooks vs Vue Composables:2026 年全面对比
前端·javascript·面试
彭于晏Yan2 小时前
Springboot实现微服务监控
spring boot·后端·微服务
小江的记录本2 小时前
【Spring Boot—— .yml(YAML)】Spring Boot中.yml文件的基础语法、高级特性、实践技巧
xml·java·spring boot·后端·spring·spring cloud·架构
爱敲代码的小黄2 小时前
Agent 能力模块化:Skill 设计与执行机制解析
人工智能·后端·面试
掘金者阿豪2 小时前
告别SQL性能焦虑:金仓数据库“连接条件下推”的性能魔法
后端