VSCode+Cline部署本地爬虫fetch-mcp实战

VsCode+Cline部署本地爬虫fetch-mcp实战

🌟 你好,我是 励志成为糕手 !

🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨

每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银河;

🛠️ 每一个算法都是我绘制的星图,指引着数据流动的最短路径; 🔍

每一次调试都是星际对话,用耐心和智慧解开宇宙的谜题。

🚀 准备好开始我们的星际编码之旅了吗?

目录

VsCode+Cline部署本地爬虫fetch-mcp实战

摘要

[1. 引言](#1. 引言)

[1.1 VS Code](#1.1 VS Code)

[1.2 Cline](#1.2 Cline)

[1.3 fetch-mcp](#1.3 fetch-mcp)

[2. 环境准备](#2. 环境准备)

[2.1 安装Cline](#2.1 安装Cline)

[2.2 配置模型](#2.2 配置模型)

[2.2.1 Deepseek 配置](#2.2.1 Deepseek 配置)

[2.2.2 Qwen 配置](#2.2.2 Qwen 配置)

[2.3 安装node.js](#2.3 安装node.js)

[3. Fetch MCP](#3. Fetch MCP)

[3.1 自动安装](#3.1 自动安装)

[3.2 手动安装](#3.2 手动安装)

[3.2.1 fetch-mcp download](#3.2.1 fetch-mcp download)

[3.2.2 安装依赖](#3.2.2 安装依赖)

[3.3 验证](#3.3 验证)

[3.3.1 基本网页抓取示例](#3.3.1 基本网页抓取示例)

[3.3.2 高级配置与批量抓取示例](#3.3.2 高级配置与批量抓取示例)

[4. 总结](#4. 总结)


摘要

在当今数据驱动的时代,网络爬虫作为数据采集的重要工具,在各个领域发挥着越来越重要的作用。本文将详细介绍如何使用VSCode编辑器结合Cline命令行工具,从零开始搭建并部署一个名为fetch-mcp的本地爬虫系统。fetch-mcp是一个轻量级但功能强大的数据采集框架,它允许开发者以模块化的方式构建爬虫,支持多线程抓取、数据清洗和存储。通过本文的实战指南,读者将学习环境配置、项目初始化、爬虫编写、调试优化以及部署运行的完整流程。我们将深入探讨如何利用VSCode的强大功能提高开发效率,如何通过Cline工具简化命令行操作,以及如何解决爬虫开发过程中常见的问题如反爬机制应对、异常处理和性能优化等。无论你是爬虫开发新手还是有经验的开发者,本文都将为你提供实用的技术指导和最佳实践建议。

1. 引言

这里先梳理一下要使用到的三个工具。

1.1 VS Code

Visual Studio Code(简称VS Code)是微软开发的一款免费开源的轻量级代码编辑器,支持Windows、macOS和Linux三大主流操作系统。它以轻量、高性能和强大的扩展性而闻名,适用于全栈开发、脚本编写、数据科学等多种开发场景。

1.2 Cline

Cline是一款深度集成在Visual Studio Code(VSCode)中的开源AI编程助手插件,为开发者提供了强大的智能编程支持。作为一款创新的自主编码代理,它专注于自动化软件开发任务,显著提升编程效率。

Cline的核心优势在于支持多种顶尖大语言模型,包括Claude 3.5 Sonnet、DeepSeek V3、Google Gemini等,用户可以根据需求灵活选择。它提供了丰富的功能,如智能代码生成、代码优化建议、实时语法检查等,能够生成高质量的代码片段并提供专业的编程指导。(这里我用的是DeepSeek V3)

值得一提的是,Cline在开发者社区中广受欢迎,在Open Router的日排行、周排行和月排行中,Cline都是调用模型最多的工具之一。通过个性化配置和强大的交互功能,它已成为众多开发者的专属编程导师,为软件开发者和编程人员提供了高效的代码编写、调试和项目管理解决方案。

1.3 fetch-mcp

fetch-mcp是一款结合了高性能爬虫引擎与Model Context Protocol(MCP)协议的开源框架。它基于Node.js开发,采用多进程并发抓取技术,极大提升了数据采集效率。

作为一款现代化的爬虫工具,fetch-mcp基于Playwright头部浏览器技术,能够执行JavaScript,轻松应对动态网页和现代Web应用的抓取需求。它支持以多种格式(包括HTML、JSON、纯文本和Markdown)获取网络内容,满足不同场景的数据处理需求。

此外,fetch-mcp还具备灵活的代理配置和自动Cookie管理功能,增强了抓取过程中的稳定性和可靠性。更值得一提的是,它能够与AI模型深度集成,开启了"数据采集-智能分析-决策执行"的闭环新时代,为AI Agent的开发提供了强大的数据支持能力。

通过标准化通信协议与模块化设计,fetch-mcp为开发者提供了一个高效、稳定、易用的本地爬虫解决方案。

2. 环境准备

先下载VS Code,下载链接:https://code.visualstudio.com/ ,安装过程略过。

下载好后,先把配置语言设置成中文,方便后续使用。

2.1 安装Cline

同时搜索cline并下载。

下载好第一步先登录:

输入邮箱之后,可以用 github去关联一下。有些时候网络环境较差的时候可能会导致github网站打不开,要么是多刷新几次,要么提供一个外网环境(挂个梯子)。

当到这个页面的时候就说明你已经登录完成了,直接授权即可:

至此,cline插件就安装完成了。

2.2 配置模型

来到设置:

2.2.1 Deepseek 配置

这里我们就用deepseek。前两个月ds刚好发布新模型 DeepSeek-V3.2-Exp ,api价格降了不少,当然,训练推理也提效了。

来到 deepseek api官网:https://platform.deepseek.com/usage ,或者点击这里:

按提示创建 api key:

生成的 api-key要妥善保管,因为只显示一次,后面都只会如上图加密的形式展示,建议存在文档中。

最后,测试一下。当api成功调用时就说明上述配置都已经全部完成了!

2.2.2 Qwen 配置

其实配置方法也是一样的,无非就是网站不一样,申请key的流程都是一样的。不过千问的模型选择就要多一些,这里按需自取吧,旗舰模型例如 Qwen3-Max 要比ds贵上不少(实测),但是性能确实要强一些。选好一个模型之后生成秘钥,按上面同样的步骤配置就行。

我把网址附在这里:https://www.aliyun.com/product/bailian

2.3 安装node.js

因为本质上MCP(Model Context Protocol)在实现上通常表现为一段 Node.js 程序 ,其本质是一个轻量级的、遵循标准协议的服务端中间件:它运行在本地或服务器上,通过定义好的 JSON-RPC 或类似接口,接收来自大语言模型(LLM)的工具调用请求,然后安全地执行对应的操作(比如查询数据库、调用 API、读取文件等),并将结构化结果返回给模型。这段 Node.js 代码不仅封装了具体工具的逻辑,还负责处理认证、上下文传递、输入验证和错误恢复等通用能力,使得任何支持 MCP 的 AI 模型都能以统一方式"理解"并使用外部世界的功能,从而成为连接 LLM 与现实系统的关键桥梁。 所以,**安装node.js是必不可少的。**安装步骤简单易懂,直接下载安装就行。

一样的,这里附属上链接:https://nodejs.org/en

用 win+R 输入cmd 打开命令提示符,验证一下,输入

bash 复制代码
// 查看node版本
node -v
// 查看npx版本
npx -v

如果都能正常输出,就大功告成了。

3. Fetch MCP

点击MCP Servers这个小按钮,这里罗列了很多mcp,你可以按需求进行搜索,也可以按star数量,发布日期来进行筛选。

3.1 自动安装

这个简单,你就直接搜,搜到的这个就是了。

当你点击install,他先会用api去调取大模型,然后自动从GitHub上clone一份下来,然后再在你本地部署一份,最后在你本地创建一个cline_mcp_settings.json 文件,看后缀就本质是一个json字符串,这就是配置的mcp-server。

我们再来看看这串 cline_mcp_settings.json 是这么写的:

cs 复制代码
{
  "mcpServers": {
    "github.com/zcaceres/fetch-mcp": {
      "command": "node",
      "args": [
        "E:\\MCP\\fetch-mcp-main\\dist\\index.js"
      ],
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

这就是配置mcp客户端的方法,告诉大模型这个fetch-mcp由node运行;

服务器的主文件位于 E:\MCP\fetch-mcp-main\dist\index.js;

服务器始终处于启动状态;("disabled": 这里如果为true表示禁用)

而 alwaysAllow 表示:空数组表示没有特定的操作被设置为"始终允许";需要时用户需要手动授权各种操作。

当然这种间省略了一些步骤,我会在接下来手动安装部分详细写出来。

3.2 手动安装

刚刚上述所说的安装方法建议配置国外上网环境。因为既然要从GitHub克隆项目下来可能多多少少会有点问题。

可以看看这个大佬写的本地部署 fetch-mcp步骤:https://blog.csdn.net/tianxuechao/article/details/145847902

那么同样的,跟着我的步骤:

我这里是已经配置过了两个的,如果你第一次用的话这个文件里面是空的。这样,我们就找到了mcp的配置文件。

3.2.1 fetch-mcp download

来到项目网站:fetch-mcp-main

先把这个项目下载下来,然后解压到本地。

3.2.2 安装依赖

同样的,用管理员身份运行命令提示符(不然权限可能不够),你把引号里面的替换成自己的路径。

bash 复制代码
cd /d "E:\MCP\fetch-mcp-main"

安装依赖:

bash 复制代码
npm install

构建服务器:

bash 复制代码
npm run build

最后,把mcp配置文件写进 cline_mcp_settings.json :

cs 复制代码
{
  "mcpServers": {
    "fetch": {
      "command": "node",
      "args": [
        "E:\\MCP\\fetch-mcp-main"
      ],
      "disabled": false,
      "alwaysAllow": []
    }
  }
}

其实和大模型自己写的是一样的,无非是名称不一样而已。

3.3 验证

我就拿我的CSDN主页做验证吧,让大模型用这个爬虫mcp去看下我的主页数据:

请求我是这么写的:

https://blog.csdn.net/m0_74385041?spm=1000.2115.3001.5343 , 看一下这个CSDN主页的数据,可以用fetch-mcp

结果如下:

Task Completed

我已经成功获取并分析了CSDN主页的数据。以下是该主页的关键信息:

CSDN博客主页分析报告

基本信息

  • 博客标题: 励志成为糕手-CSDN博客

  • 用户昵称: 励志成为糕手

  • 码龄: 3年

  • 博客等级: 6级

  • 认证状态: 已个人实名认证

专业领域

  • 主要技术方向: 大数据、编程语言Java、深度学习

  • 关注的技术栈:

  • 大数据相关: Hadoop, HDFS, HBase, Spark, MapReduce, Flume, Kafka

  • Java生态: JVM, Spring Boot, Spring Cloud, Maven, Servlet, Tomcat

  • 数据库: MySQL, Redis, SQL

  • 开发工具: IntelliJ IDEA

  • 数据相关: Hive, 数据仓库

  • 其他: JSON, Java-Zookeeper

技术专长

该用户主要专注于大数据技术栈和Java开发,特别是在Hadoop生态系统、分布式计算和Java企业级开发方面有较深的涉猎。

数据来源

使用fetch-mcp工具成功获取了HTML页面内容,并从中提取了meta标签和页面结构中的关键信息。

这个CSDN主页展示了一个专注于大数据和Java开发的技术博主,具有3年的编程经验,在相关技术领域有较为全面的知识覆盖。

请求2:

可以再写详细一点,并用markdown格式输出,写到一个以md为后缀的文件中

输出结果:

当然,相关的爬虫mcp还有很多,后续可以根据需要结合其他的mcp完成不同的需求。

3.3.1 基本网页抓取示例

fetch-mcp提供了多种数据获取方法,包括`fetch_html`、`fetch_json`、`fetch_txt`和`fetch_markdown`。下面是一个使用fetch-mcp获取CSDN主页内容并提取关键信息的示例:

javascript 复制代码
// 使用fetch_html获取CSDN主页HTML内容
async function fetchCSDNHomePage() {
  // 调用fetch-mcp的fetch_html工具
  const result = await mcp.fetch_html({
    url: 'https://blog.csdn.net/',
    // 可选配置项
    options: {
      // 设置User-Agent模拟浏览器
      headers: {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
      },
      // 启用JavaScript执行
      executeJavaScript: true,
      // 设置超时时间(毫秒)
      timeout: 30000
    }
  });

  if (result.success) {
    console.log('成功获取CSDN主页内容');
    // 提取页面标题
    const titleMatch = result.content.match(/<title>(.*?)<\/title>/);
    const title = titleMatch ? titleMatch[1] : '未找到标题';
    console.log('页面标题:', title);
    
    // 提取热门文章标题
    const articleTitles = [];
    const regex = /<h3[^>]*>(.*?)<\/h3>/gs;
    let match;
    while ((match = regex.exec(result.content)) !== null && articleTitles.length < 5) {
      // 简单清理HTML标签
      const cleanTitle = match[1].replace(/<[^>]*>/g, '').trim();
      if (cleanTitle && cleanTitle.length > 5) {
        articleTitles.push(cleanTitle);
      }
    }
    
    console.log('热门文章标题:', articleTitles);
    return {
      title: title,
      hotArticles: articleTitles
    };
  } else {
    console.error('获取失败:', result.error);
    throw new Error('获取CSDN主页失败: ' + result.error);
  }
}

// 调用示例
fetchCSDNHomePage()
  .then(data => console.log('处理结果:', data))
  .catch(err => console.error('处理错误:', err));

关键代码解析:

  • `mcp.fetch_html()`:调用fetch-mcp提供的HTML获取工具

  • `options`参数:配置请求头、JavaScript执行和超时设置,增强抓取能力

  • 正则表达式提取:使用正则表达式从HTML中提取页面标题和热门文章

  • 错误处理:完整的错误处理机制确保程序稳定性

3.3.2 高级配置与批量抓取示例

对于更复杂的抓取需求,我们可以配置fetch-mcp进行批量抓取和数据处理。以下是一个自定义配置文件示例:

javascript 复制代码
// fetch-mcp-config.js
const config = {
  // 基础配置
  baseConfig: {
    // 并发数量
    concurrency: 3,
    // 全局超时时间
    timeout: 30000,
    // 默认请求头
    headers: {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    },
    // 重试配置
    retry: {
      enabled: true,
      maxRetries: 3,
      delay: 1000
    },
    // 代理配置(可选)
    proxy: {
      enabled: false,
      url: 'http://localhost:7890'
    }
  },
  
  // 批量抓取配置
  batchFetch: {
    // 要抓取的URL列表
    urls: [
      '//这里加要抓取的URL'
    ],
    // 每个URL的特定配置
    urlConfigs: {
      '//设置URL特定配置': {
        format: 'markdown', // 返回markdown格式
        executeJavaScript: true
      }
    },
    // 结果处理函数
    processResults: async (results) => {
      // 处理所有抓取结果
      const processedData = [];
      
      for (const result of results) {
        if (result.success) {
          // 根据URL进行不同的处理
          if (result.url.includes('/article/')) {
            // 处理文章页面
            processedData.push({
              type: 'article',
              url: result.url,
              content: result.content.substring(0, 200) + '...' // 截取内容预览
            });
          } else if (result.url.includes('/category/')) {
            // 处理分类页面
            processedData.push({
              type: 'category',
              url: result.url,
              contentLength: result.content.length
            });
          }
        }
      }
      
      return processedData;
    }
  }
};

module.exports = config;

// 使用配置文件的示例
async function runBatchFetch() {
  const config = require('./fetch-mcp-config.js');
  
  // 创建任务列表
  const tasks = config.batchFetch.urls.map(url => {
    const urlConfig = config.batchFetch.urlConfigs[url] || {};
    const fetchOptions = {
      url: url,
      options: {
        ...config.baseConfig,
        ...urlConfig
      }
    };
    
    // 根据配置选择不同的fetch方法
    const fetchMethod = urlConfig.format === 'markdown' 
      ? mcp.fetch_markdown 
      : mcp.fetch_html;
    
    return fetchMethod(fetchOptions);
  });
  
  // 并发执行所有任务
  const results = await Promise.all(tasks);
  
  // 处理结果
  const processedResults = await config.batchFetch.processResults(results);
  console.log('批量抓取完成,处理结果:', processedResults);
  
  return processedResults;
}

关键代码解析:

  • `baseConfig`:定义全局配置,包括并发数、超时、重试等基本参数

  • `batchFetch`:配置批量抓取任务,支持不同URL的差异化配置

  • `processResults`:集中处理所有抓取结果,根据URL类型进行不同处理

  • 动态方法选择:根据配置自动选择合适的fetch方法(html或markdown)

  • Promise并发:使用Promise.all实现高效的并发抓取

通过这些配置和代码示例,我们可以看到fetch-mcp的强大灵活性,它不仅支持基本的网页抓取,还可以进行复杂的批量数据采集和处理,为AI模型提供丰富的数据支持。

4. 总结

本文详细介绍了如何使用VSCode、Cline和fetch-mcp搭建本地爬虫系统。VSCode作为轻量级代码编辑器,提供了良好的开发环境;Cline是一款集成于VSCode的AI编程助手,支持多种大语言模型(如DeepSeek、Qwen等),能显著提升开发效率;fetch-mcp则是基于Node.js的高性能爬虫框架,采用多进程并发抓取技术,支持JavaScript执行和多种数据格式获取。

搭建过程首先需准备环境:安装VSCode并配置中文界面,安装Cline插件并设置DeepSeek或Qwen模型的API密钥,以及安装Node.js。随后可通过自动或手动方式安装fetch-mcp,手动安装需从GitHub下载项目、安装依赖、构建服务器并配置cline_mcp_settings.json文件。

文档还提供了丰富的代码示例,包括使用fetch_html获取CSDN主页并提取信息的基本示例,以及配置并发抓取、重试机制、代理等高级功能的批量抓取示例。这些示例展示了fetch-mcp的灵活性和强大功能,适合不同场景的数据采集需求。通过这三款工具的组合,开发者可快速构建高效、稳定的本地爬虫系统,为数据驱动的应用提供可靠支持。

最后,如果有什么不懂的可以评论区留言我们讨论一下。希望本文能够给到你帮助~

相关推荐
小白跃升坊19 小时前
Codex 增强部署:基于 Codex++ 接入 DeepSeek
ai·ai编程·codex·deepseek·ai coding·codex++
AlfredZhao19 小时前
GPT 省钱,不是别用最新模型,而是别浪费缓存
gpt·ai
doiito1 天前
【Agent Harness】Gliding Horse 本体论系统设计:给 AI Agent 装上“语义大脑”
ai·rust·架构设计·系统设计·ai agent
Caco_D1 天前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
小七-七牛开发者1 天前
周一上线 | SpaceX 收购 Cursor、支付宝进入 AI 时代、DeepSeek 完成 500 亿元融资
ai·agent·token·glm·智谱·claudecode·ai coding·周一上线
doiito2 天前
【Agent Harness】为什么我把 JSON‑LD “编译成 DAG” 后,整个 Agent 平台立刻聪明了
ai·rust·架构设计·系统设计·ai agent
ServBay2 天前
Laravel Herd MCP 的替代,多语言与跨平台的 AI 本地开发选择
后端·ai编程·mcp
码哥字节2 天前
我把整个代码库喂给 Claude Code,工具超 50 个就静默丢失,这个坑太阴了
mcp·claude code·ai编程工具
xiezhr2 天前
折腾半小时,终于让AI 能直接帮我写飞书文档了
ai·飞书·ai agent·飞书cli·飞书文档