猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP

随着互联网内容的不断增多,如何高效地抓取网页数据并提取结构化信息成为了开发者和数据科学家关注的重点。Hyperbrowser MCP 是一个功能强大的开源工具,旨在提供网页抓取、结构化数据提取、网页爬取和浏览器自动化操作的解决方案。它不仅能够将网页内容整理为 Markdown 格式或 JSON 数据,还支持快速的信息查找和自动化操作功能。本文将介绍如何使用 Hyperbrowser MCP 进行这些操作。

文章目录

  • [一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP](#一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP)
    • [Hyperbrowser MCP 简介](#Hyperbrowser MCP 简介)
    • [安装 Hyperbrowser MCP](#安装 Hyperbrowser MCP)
      • 手动安装
      • [在 Cursor 中运行](#在 Cursor 中运行)
      • [在 Windsurf 中运行](#在 Windsurf 中运行)
      • 开发环境
      • [Claude Desktop 客户端配置示例](#Claude Desktop 客户端配置示例)
    • 功能概述
    • [配置 Hyperbrowser MCP](#配置 Hyperbrowser MCP)
    • 结论

Hyperbrowser MCP 简介

Hyperbrowser MCP 提供了一个简单且强大的 API,使得用户能够从网页中提取结构化数据,并进行浏览器自动化操作。用户可以通过这一工具,快速抓取网页内容并转化为结构化数据,或者自动化执行常见的网页操作。它不仅支持多种数据格式输出,还能与 Bing 搜索引擎及多个智能体进行集成,实现复杂的自动化任务。

主要功能

  • 将网页内容整理为 Markdown 格式:支持将抓取到的网页内容转化为 Markdown 格式,方便保存和处理。
  • 网页图片截取:不仅抓取网页文本,还支持直接截取网页中的图片。
  • 网页内容的结构化提取:可以将混乱的 HTML 内容转换为结构化的 JSON 数据格式。
  • 自动化浏览器操作:支持通过智能体(如 OpenAI 的 CUA 和 Anthropic 的 Claude)进行快速、轻量级的浏览器自动化操作。

GitHub 地址:Hyperbrowser MCP GitHub

安装 Hyperbrowser MCP

手动安装

要安装 Hyperbrowser MCP 服务器,首先运行以下命令:

bash 复制代码
npx hyperbrowser-mcp <YOUR-HYPERBROWSER-API-KEY>

在 Cursor 中运行

如果你使用 Cursor,请将以下内容添加到 ~/.cursor/mcp.json 文件中:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

在 Windsurf 中运行

如果你在 Windsurf 上运行,请将以下内容添加到 ./codeium/windsurf/model_config.json 文件中:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

开发环境

如果你希望在开发环境中运行,可以通过源代码启动服务器:

  1. 克隆仓库:

    bash 复制代码
    git clone git@github.com:hyperbrowserai/mcp.git hyperbrowser-mcp
    cd hyperbrowser-mcp
  2. 安装依赖:

    bash 复制代码
    npm install # 或者 yarn install
  3. 构建项目:

    bash 复制代码
    npm run build
  4. 运行服务器:

    bash 复制代码
    node dist/server.js

Claude Desktop 客户端配置示例

以下是 Claude Desktop 客户端的配置示例:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["--yes", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "your-api-key"
      }
    }
  }
}

功能概述

Hyperbrowser MCP 提供了多种实用工具,支持网页抓取、数据提取、浏览器自动化等操作。

常用工具

  1. scrape_webpage:从任何网页中提取格式化的内容(如 Markdown、截图等)。
  2. crawl_webpages:浏览多个链接页面并提取适合 LLM 使用的格式化内容。
  3. extract_structured_data:将混乱的 HTML 转换为结构化的 JSON 数据。
  4. search_with_bing:通过 Bing 搜索引擎查询网页信息。
  5. browser_use_agent:使用 Browser Use 智能体进行快速、轻量级的浏览器自动化操作。
  6. openai_computer_use_agent:使用 OpenAI 的 CUA 模型进行通用自动化任务。
  7. claude_computer_use_agent:使用 Claude 智能体执行复杂的浏览器任务。
  8. create_profile:创建新的持久性 Hyperbrowser 配置文件。
  9. delete_profile:删除现有的 Hyperbrowser 配置文件。
  10. list_profiles:列出现有的 Hyperbrowser 配置文件。

安装 via Smithery

如果你想通过 Smithery 安装 Hyperbrowser MCP Server,运行以下命令:

bash 复制代码
npx -y @smithery/cli install @hyperbrowserai/mcp --client claude

配置 Hyperbrowser MCP

Hyperbrowser MCP 支持灵活的配置和定制,用户可以根据需求进行相关设置,例如选择不同的智能体进行自动化任务,或配置自定义的服务器等。

配置文件示例

以下是一个典型的配置文件示例,用户可以根据自己的需求修改 API 密钥和相关参数:

json 复制代码
{
  "mcpServers": {
    "hyperbrowser": {
      "command": "npx",
      "args": ["-y", "hyperbrowser-mcp"],
      "env": {
        "HYPERBROWSER_API_KEY": "YOUR-API-KEY"
      }
    }
  }
}

结论

Hyperbrowser MCP 是一个强大的工具,适用于需要网页抓取、数据提取和浏览器自动化操作的场景。通过简单的配置和易于使用的 API,用户可以轻松实现网页抓取和自动化任务,极大提高工作效率。如果你正在寻找一个高效的网页数据抓取和浏览器自动化工具,Hyperbrowser MCP 无疑是一个值得尝试的解决方案。

更多详细信息和资源,请访问 Hyperbrowser MCP GitHub

相关推荐
幻风_huanfeng10 分钟前
学习人工智能所需知识体系及路径详解
人工智能·学习
云道轩27 分钟前
使用Docker在Rocky Linux 9.5上在线部署LangFlow
linux·人工智能·docker·容器·langflow
伟大的大威30 分钟前
Docker 部署 Supabase并连接
运维·docker·容器
POLOAPI1 小时前
从模型到生产:AI 大模型落地工程与效率优化实践
人工智能·gpt·gemini
孙克旭_1 小时前
day062-监控告警方式与Grafana优雅展示
linux·运维·zabbix·grafana
谷歌上搜百度1 小时前
LLM并非“万能钥匙”——深度解析大语言模型的本质与边界
人工智能·llm
Wendy14411 小时前
【图像掩膜】——图像预处理(OpenCV)
人工智能·opencv·计算机视觉
机器之心1 小时前
开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
人工智能
GISer_Jing1 小时前
Coze:字节跳动AI开发平台功能和架构解析
javascript·人工智能·架构·开源
我有一计3331 小时前
【算法笔记】5.LeetCode-Hot100-矩阵专项
人工智能·算法·程序员