猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

随着互联网内容的不断增多,如何高效地抓取网页数据并提取结构化信息成为了开发者和数据科学家关注的重点。Hyperbrowser MCP 是一个功能强大的开源工具,旨在提供网页抓取、结构化数据提取、网页爬取和浏览器自动化操作的解决方案。它不仅能够将网页内容整理为 Markdown 格式或 JSON 数据,还支持快速的信息查找和自动化操作功能。本文将介绍如何使用 Hyperbrowser MCP 进行这些操作。

文章目录

  • [一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP](#一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP)
    • [Hyperbrowser MCP 简介](#Hyperbrowser MCP 简介)
    • [安装 Hyperbrowser MCP](#安装 Hyperbrowser MCP)
      • 手动安装
      • [在 Cursor 中运行](#在 Cursor 中运行)
      • [在 Windsurf 中运行](#在 Windsurf 中运行)
      • 开发环境
      • [Claude Desktop 客户端配置示例](#Claude Desktop 客户端配置示例)
    • 功能概述
    • [配置 Hyperbrowser MCP](#配置 Hyperbrowser MCP)
    • 结论

Hyperbrowser MCP 简介

Hyperbrowser MCP 提供了一个简单且强大的 API,使得用户能够从网页中提取结构化数据,并进行浏览器自动化操作。用户可以通过这一工具,快速抓取网页内容并转化为结构化数据,或者自动化执行常见的网页操作。它不仅支持多种数据格式输出,还能与 Bing 搜索引擎及多个智能体进行集成,实现复杂的自动化任务。

主要功能

  • 将网页内容整理为 Markdown 格式:支持将抓取到的网页内容转化为 Markdown 格式,方便保存和处理。
  • 网页图片截取:不仅抓取网页文本,还支持直接截取网页中的图片。
  • 网页内容的结构化提取:可以将混乱的 HTML 内容转换为结构化的 JSON 数据格式。
  • 自动化浏览器操作:支持通过智能体(如 OpenAI 的 CUA 和 Anthropic 的 Claude)进行快速、轻量级的浏览器自动化操作。

GitHub 地址:Hyperbrowser MCP GitHub

安装 Hyperbrowser MCP

手动安装

要安装 Hyperbrowser MCP 服务器,首先运行以下命令:

bash 复制代码
npx hyperbrowser-mcp <YOUR-HYPERBROWSER-API-KEY>

在 Cursor 中运行

如果你使用 Cursor,请将以下内容添加到 ~/.cursor/mcp.json 文件中:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

在 Windsurf 中运行

如果你在 Windsurf 上运行,请将以下内容添加到 ./codeium/windsurf/model_config.json 文件中:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

开发环境

如果你希望在开发环境中运行,可以通过源代码启动服务器:

  1. 克隆仓库:

    bash 复制代码
    git clone git@github.com:hyperbrowserai/mcp.git hyperbrowser-mcp
    cd hyperbrowser-mcp
  2. 安装依赖:

    bash 复制代码
    npm install # 或者 yarn install
  3. 构建项目:

    bash 复制代码
    npm run build
  4. 运行服务器:

    bash 复制代码
    node dist/server.js

Claude Desktop 客户端配置示例

以下是 Claude Desktop 客户端的配置示例:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["--yes", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "your-api-key"
      }
    }
  }
}

功能概述

Hyperbrowser MCP 提供了多种实用工具,支持网页抓取、数据提取、浏览器自动化等操作。

常用工具

  1. scrape_webpage:从任何网页中提取格式化的内容(如 Markdown、截图等)。
  2. crawl_webpages:浏览多个链接页面并提取适合 LLM 使用的格式化内容。
  3. extract_structured_data:将混乱的 HTML 转换为结构化的 JSON 数据。
  4. search_with_bing:通过 Bing 搜索引擎查询网页信息。
  5. browser_use_agent:使用 Browser Use 智能体进行快速、轻量级的浏览器自动化操作。
  6. openai_computer_use_agent:使用 OpenAI 的 CUA 模型进行通用自动化任务。
  7. claude_computer_use_agent:使用 Claude 智能体执行复杂的浏览器任务。
  8. create_profile:创建新的持久性 Hyperbrowser 配置文件。
  9. delete_profile:删除现有的 Hyperbrowser 配置文件。
  10. list_profiles:列出现有的 Hyperbrowser 配置文件。

安装 via Smithery

如果你想通过 Smithery 安装 Hyperbrowser MCP Server,运行以下命令:

bash 复制代码
npx -y @smithery/cli install @hyperbrowserai/mcp --client claude

配置 Hyperbrowser MCP

Hyperbrowser MCP 支持灵活的配置和定制,用户可以根据需求进行相关设置,例如选择不同的智能体进行自动化任务,或配置自定义的服务器等。

配置文件示例

以下是一个典型的配置文件示例,用户可以根据自己的需求修改 API 密钥和相关参数:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

结论

Hyperbrowser MCP 是一个强大的工具,适用于需要网页抓取、数据提取和浏览器自动化操作的场景。通过简单的配置和易于使用的 API,用户可以轻松实现网页抓取和自动化任务,极大提高工作效率。如果你正在寻找一个高效的网页数据抓取和浏览器自动化工具,Hyperbrowser MCP 无疑是一个值得尝试的解决方案。

更多详细信息和资源,请访问 Hyperbrowser MCP GitHub

相关推荐
xflySnail7 分钟前
nas服务域名高速访问-DNS+ESA
运维·服务器·esa·无端口访问
工藤学编程1 小时前
零基础学AI大模型之LangChain智能体之initialize_agent开发实战
人工智能·langchain
king王一帅2 小时前
Incremark Solid 版本上线:Vue/React/Svelte/Solid 四大框架,统一体验
前端·javascript·人工智能
泰迪智能科技5 小时前
分享|职业技术培训|数字技术应用工程师快问快答
人工智能
Dxy12393102166 小时前
如何给AI提问:让机器高效理解你的需求
人工智能
少林码僧6 小时前
2.31 机器学习神器项目实战:如何在真实项目中应用XGBoost等算法
人工智能·python·算法·机器学习·ai·数据挖掘
钱彬 (Qian Bin)6 小时前
项目实践15—全球证件智能识别系统(切换为Qwen3-VL-8B-Instruct图文多模态大模型)
人工智能·算法·机器学习·多模态·全球证件识别
没学上了7 小时前
CNNMNIST
人工智能·深度学习
宝贝儿好7 小时前
【强化学习】第六章:无模型控制:在轨MC控制、在轨时序差分学习(Sarsa)、离轨学习(Q-learning)
人工智能·python·深度学习·学习·机器学习·机器人
智驱力人工智能7 小时前
守护流动的规则 基于视觉分析的穿越导流线区检测技术工程实践 交通路口导流区穿越实时预警技术 智慧交通部署指南
人工智能·opencv·安全·目标检测·计算机视觉·cnn·边缘计算