猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

随着互联网内容的不断增多,如何高效地抓取网页数据并提取结构化信息成为了开发者和数据科学家关注的重点。Hyperbrowser MCP 是一个功能强大的开源工具,旨在提供网页抓取、结构化数据提取、网页爬取和浏览器自动化操作的解决方案。它不仅能够将网页内容整理为 Markdown 格式或 JSON 数据,还支持快速的信息查找和自动化操作功能。本文将介绍如何使用 Hyperbrowser MCP 进行这些操作。

文章目录

  • [一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP](#一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP)
    • [Hyperbrowser MCP 简介](#Hyperbrowser MCP 简介)
    • [安装 Hyperbrowser MCP](#安装 Hyperbrowser MCP)
      • 手动安装
      • [在 Cursor 中运行](#在 Cursor 中运行)
      • [在 Windsurf 中运行](#在 Windsurf 中运行)
      • 开发环境
      • [Claude Desktop 客户端配置示例](#Claude Desktop 客户端配置示例)
    • 功能概述
    • [配置 Hyperbrowser MCP](#配置 Hyperbrowser MCP)
    • 结论

Hyperbrowser MCP 简介

Hyperbrowser MCP 提供了一个简单且强大的 API,使得用户能够从网页中提取结构化数据,并进行浏览器自动化操作。用户可以通过这一工具,快速抓取网页内容并转化为结构化数据,或者自动化执行常见的网页操作。它不仅支持多种数据格式输出,还能与 Bing 搜索引擎及多个智能体进行集成,实现复杂的自动化任务。

主要功能

  • 将网页内容整理为 Markdown 格式:支持将抓取到的网页内容转化为 Markdown 格式,方便保存和处理。
  • 网页图片截取:不仅抓取网页文本,还支持直接截取网页中的图片。
  • 网页内容的结构化提取:可以将混乱的 HTML 内容转换为结构化的 JSON 数据格式。
  • 自动化浏览器操作:支持通过智能体(如 OpenAI 的 CUA 和 Anthropic 的 Claude)进行快速、轻量级的浏览器自动化操作。

GitHub 地址:Hyperbrowser MCP GitHub

安装 Hyperbrowser MCP

手动安装

要安装 Hyperbrowser MCP 服务器,首先运行以下命令:

bash 复制代码
npx hyperbrowser-mcp <YOUR-HYPERBROWSER-API-KEY>

在 Cursor 中运行

如果你使用 Cursor,请将以下内容添加到 ~/.cursor/mcp.json 文件中:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

在 Windsurf 中运行

如果你在 Windsurf 上运行,请将以下内容添加到 ./codeium/windsurf/model_config.json 文件中:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

开发环境

如果你希望在开发环境中运行,可以通过源代码启动服务器:

  1. 克隆仓库:

    bash 复制代码
    git clone git@github.com:hyperbrowserai/mcp.git hyperbrowser-mcp
    cd hyperbrowser-mcp
  2. 安装依赖:

    bash 复制代码
    npm install # 或者 yarn install
  3. 构建项目:

    bash 复制代码
    npm run build
  4. 运行服务器:

    bash 复制代码
    node dist/server.js

Claude Desktop 客户端配置示例

以下是 Claude Desktop 客户端的配置示例:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["--yes", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "your-api-key"
      }
    }
  }
}

功能概述

Hyperbrowser MCP 提供了多种实用工具,支持网页抓取、数据提取、浏览器自动化等操作。

常用工具

  1. scrape_webpage:从任何网页中提取格式化的内容(如 Markdown、截图等)。
  2. crawl_webpages:浏览多个链接页面并提取适合 LLM 使用的格式化内容。
  3. extract_structured_data:将混乱的 HTML 转换为结构化的 JSON 数据。
  4. search_with_bing:通过 Bing 搜索引擎查询网页信息。
  5. browser_use_agent:使用 Browser Use 智能体进行快速、轻量级的浏览器自动化操作。
  6. openai_computer_use_agent:使用 OpenAI 的 CUA 模型进行通用自动化任务。
  7. claude_computer_use_agent:使用 Claude 智能体执行复杂的浏览器任务。
  8. create_profile:创建新的持久性 Hyperbrowser 配置文件。
  9. delete_profile:删除现有的 Hyperbrowser 配置文件。
  10. list_profiles:列出现有的 Hyperbrowser 配置文件。

安装 via Smithery

如果你想通过 Smithery 安装 Hyperbrowser MCP Server,运行以下命令:

bash 复制代码
npx -y @smithery/cli install @hyperbrowserai/mcp --client claude

配置 Hyperbrowser MCP

Hyperbrowser MCP 支持灵活的配置和定制,用户可以根据需求进行相关设置,例如选择不同的智能体进行自动化任务,或配置自定义的服务器等。

配置文件示例

以下是一个典型的配置文件示例,用户可以根据自己的需求修改 API 密钥和相关参数:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

结论

Hyperbrowser MCP 是一个强大的工具,适用于需要网页抓取、数据提取和浏览器自动化操作的场景。通过简单的配置和易于使用的 API,用户可以轻松实现网页抓取和自动化任务,极大提高工作效率。如果你正在寻找一个高效的网页数据抓取和浏览器自动化工具,Hyperbrowser MCP 无疑是一个值得尝试的解决方案。

更多详细信息和资源,请访问 Hyperbrowser MCP GitHub

相关推荐
m0_650108243 小时前
【论文精读】CMD:迈向高效视频生成的新范式
人工智能·论文精读·视频扩散模型·高效生成·内容 - 运动分解·latent 空间
电鱼智能的电小鱼3 小时前
基于电鱼 AI 工控机的智慧工地视频智能分析方案——边缘端AI检测,实现无人值守下的实时安全预警
网络·人工智能·嵌入式硬件·算法·安全·音视频
AI小小怪3 小时前
在Linux服务器上安装CVAT (Docker 28.5.1)
运维·docker·容器·数据标注·cvat
年年测试3 小时前
AI驱动的测试:用Dify工作流实现智能缺陷分析与分类
人工智能·分类·数据挖掘
唐兴通个人4 小时前
人工智能Deepseek医药AI培训师培训讲师唐兴通讲课课程纲要
大数据·人工智能
共绩算力5 小时前
Llama 4 Maverick Scout 多模态MoE新里程碑
人工智能·llama·共绩算力
DashVector5 小时前
向量检索服务 DashVector产品计费
数据库·数据仓库·人工智能·算法·向量检索
AI纪元故事会5 小时前
【计算机视觉目标检测算法对比:R-CNN、YOLO与SSD全面解析】
人工智能·算法·目标检测·计算机视觉
音视频牛哥5 小时前
从协议规范和使用场景探讨为什么SmartMediaKit没有支持DASH
人工智能·音视频·大牛直播sdk·dash·dash还是rtmp·dash还是rtsp·dash还是hls
赞奇科技Xsuperzone6 小时前
DGX Spark 实战解析:模型选择与效率优化全指南
大数据·人工智能·gpt·spark·nvidia