使用 Puppeteer-Cluster 和代理进行高效网络抓取: 完全指南

文章目录

  • 一、介绍?
  • [二、什么是 Puppeteer-Cluster?](#二、什么是 Puppeteer-Cluster?)
  • 三、为什么代理在网络抓取中很重要?
  • [四、 为什么使用带代理的 Puppeteer-Cluster?](#四、 为什么使用带代理的 Puppeteer-Cluster?)
  • [五、分步指南: 带代理的 Puppeteer 群集](#五、分步指南: 带代理的 Puppeteer 群集)
    • [5.1. 步骤 1:安装所需程序库](#5.1. 步骤 1:安装所需程序库)
    • [5.2. 步骤 2. 获取并设置代理](#5.2. 步骤 2. 获取并设置代理)
    • [5.3. 步骤 3:使用代理身份验证设置 Puppeteer-Cluster](#5.3. 步骤 3:使用代理身份验证设置 Puppeteer-Cluster)
  • [六、使用 Puppeteer 群集和代理的最佳实践](#六、使用 Puppeteer 群集和代理的最佳实践)
  • 七、结论

一、介绍?

网络搜刮对于大规模收集数据至关重要,而 Puppeteer 是一种广泛使用的工具,用于自动执行网络搜刮等浏览器任务。不过,随着刮擦需求的增长,你需要高效地管理多个浏览器实例,同时避免 IP 禁止。这就是 Puppeteer-Cluster 和代理发挥作用的地方。

在本博客中,我们将探讨如何使用 Puppeteer-Cluster 扩展网络刮擦,同时集成代理服务器以避免检测并提高刮擦性能。此外,我们还将逐步介绍如何使用特定凭证集成代理服务器。

二、什么是 Puppeteer-Cluster?

Puppeteer-Cluster 是一个开源库,旨在通过并发运行多个无头浏览器实例来扩展 Puppeteer 的功能。它能处理任务队列、重试和并发,使大规模刮擦更易于管理和高效。

Puppeteer-Cluster 的主要功能包括

并发性 : 并行运行多个浏览器实例,提高搜索任务的速度和效率。
任务调度 : 自动处理任务调度,防止资源过载。
重试和错误处理 : 如果页面加载失败,Puppeteer-Cluster 可重试任务,提高可靠性。
优化资源使用: 通过管理浏览器会话,Puppeteer-Cluster 可减少内存和 CPU 开销。

这些功能使 Puppeteer-Cluster 成为管理大型刮擦操作(需要同时刮擦多个页面)的高效工具。

三、为什么代理在网络抓取中很重要?

网站通常会对进入的流量进行监控,以检测和阻止机器人,尤其是当许多请求来自同一个 IP 地址时。这时,代理服务器就能派上用场。代理服务器通过充当中间人来掩盖你的真实 IP,允许你在不同的 IP 地址之间轮换。

以下是代理的主要类型:

动态住宅代理 :分配给真正房主的 IP 地址。它们非常可靠,难以屏蔽,但价格较高。
数据中心代理 : 速度快、成本低,但与住宅代理相比更容易被发现和拦截。
静态住宅(ISP) 代理: 介于住宅代理和数据中心代理之间,速度快,可靠性高,不易被发现。

使用代理可以:

轮换 IP 地址 ,避免被屏蔽。
绕过地理限制 ,访问特定地区的内容。
保持匿名性,因为每个请求看起来都来自不同的用户。

四、 为什么使用带代理的 Puppeteer-Cluster?

虽然 Puppeteer-Cluster 可以同时运行多个浏览器,但添加代理后,每个浏览器实例都可以从不同的 IP 地址发出请求。这有助于防止检测,避免速率限制,并能搜刮受地域限制的内容。使用带有代理服务器的 Puppeteer-Cluster,不仅能确保刮擦基础架构的可扩展性,还能确保其稳健性。

在 Puppeteer-Cluster 中使用代理的一些好处:
降低封禁风险 :通过使用代理,每个请求看起来都来自不同的 IP,使网站更难检测和封禁您的刮擦器。
绕过地理限制 : 代理允许您从可能受地理位置限制的网站上抓取内容。
增强可扩展性: 将代理服务器与 Puppeteer-Cluster 结合使用,可以同时运行大量搜刮任务,而不会触及速率限制。

五、分步指南: 带代理的 Puppeteer 群集

在本节中,我们将介绍如何设置 Puppeteer-Cluster,并将其配置为使用带身份验证的代理。开始之前,请确保您的系统已安装 Node.js。

5.1. 步骤 1:安装所需程序库

首先,为你的项目创建一个新文件夹,如 "puppeteer-project"。然后,打开命令提示符(Windows)或终端(macOS、Linux),使用命令 "cd "导航到该文件夹,并在后面跟上文件夹的目录路径。然后,运行此命令创建 package.json 文件,该文件记录了项目所需的库:

bash 复制代码
npm init -y

接下来,安装 Puppeteer、Puppeteer-Cluster 和 ProxyChain(用于代理管理):

bash 复制代码
npm install puppeteer puppeteer-cluster proxy-chain

5.2. 步骤 2. 获取并设置代理

  1. 注册 Smartdaili 面板
  2. 在右侧菜单栏中选择符合您需求的代理类型。
  3. 选择适合您需要的代理和计划。
  4. 打开代理设置选项卡。
  1. 导航到下面的端点生成器。

  2. 配置参数。设置身份验证方法、位置、会话类型和协议。

  3. 选择要生成的代理端点数量(默认值 -10)。

  4. 点击复制按钮,复制端点。

5.3. 步骤 3:使用代理身份验证设置 Puppeteer-Cluster

在项目文件夹中新建一个名为 "index.js "的文件。将下面的 JavaScript 代码插入 "index.js "文件,以便将代理凭据与 Puppeteer-Cluster 集成:

bash 复制代码
const { Cluster } = require('puppeteer-cluster');
const ProxyChain = require('proxy-chain');

(async () => {
    // Proxy details
    const proxyUrl = 'http://username:password@gate.visitxiangtan.com:10001';

    // Create an anonymized proxy URL using ProxyChain to strip the credentials
    const newProxyUrl = await ProxyChain.anonymizeProxy(proxyUrl);

    // Initialize Puppeteer-Cluster
    const cluster = await Cluster.launch({
        concurrency: Cluster.CONCURRENCY_CONTEXT,
        maxConcurrency: 5,  // Number of concurrent browser instances
        puppeteerOptions: {
            headless: true,
            args: [`--proxy-server=${newProxyUrl}`],  // Set proxy for each browser instance
        },
    });

    // Define the task for each browser instance
    await cluster.task(async ({ page, data: url }) => {
        try {
            // Set proxy authentication
            await page.authenticate({
                username: 'username',
                password: 'password',
            });

            // Navigate to the URL
            await page.goto(url, { waitUntil: 'domcontentloaded' });

            // Extract and log page content (or other data as needed)
            const content = await page.content();
            console.log(`Content from ${url}: \n`, content);

        } catch (error) {
            console.error(`Error scraping ${url}:`, error);
        }
    });

    // Queue tasks for Puppeteer-Cluster
    await cluster.queue('https://ip.smartdaili-china.com/json');
    await cluster.queue('https://example.com');  // You can add more URLs here

    // Wait for tasks to finish
    await cluster.idle();
    await cluster.close();
})();

代码解释:

  1. 代理设置

将 "http://username:password @gate.visitxiangtan.com:10001 "替换为包含用户名和密码的代理服务器 URL。

在"//设置代理身份验证 "下面,将用户名和密码替换为实际代理凭证。

  1. 并发性: 我们将 Puppeteer-Cluster 配置为最多同时运行 5 个浏览器实例。你可以根据系统资源情况增减。
  2. 任务: 集群中的每个浏览器实例将访问不同的 URL,确保高效的多任务处理。
  3. 匿名代理: 我们使用 "ProxyChain.anonymizeProxy() "函数,在将代理 URL 传递给 Puppeteer 之前,从代理 URL 中剥离凭据。这可确保代理在刮擦过程中保持匿名。

要在命令提示符或终端中运行代码,请使用以下命令:

bash 复制代码
node index.js

然后,脚本将执行并输出指定 URL 的内容。

六、使用 Puppeteer 群集和代理的最佳实践

定期轮换代理服务器 : 确保您的代理服务器经常轮换,以避免被反窃听措施检测到。
尊重网站政策 : 始终遵守网站的 robots.txt 文件和服务条款,避免出现法律或道德问题。
节流请求 : 在请求之间添加一个小延迟,有助于避免触发反僵尸保护措施。一般来说,500 毫秒至 1 秒的延迟是安全的。
处理验证码: 许多网站在检测刮擦活动时都会使用验证码。使用验证码解决服务或谨慎限制请求速度有助于绕过这些挑战。

七、结论

Puppeteer-Cluster 搭配代理服务器,为可扩展的高效网络搜索提供了强大的解决方案。Puppeteer-Cluster 能够同时运行多个浏览器实例,而代理服务器则能屏蔽 IP 地址并避免限制,这为你提供了执行大规模网络搜索任务所需的工具。

按照本指南中概述的步骤,你可以用代理身份验证设置 Puppeteer-Cluster,这样你就可以同时从多个网站搜刮数据,而不必担心被屏蔽。这种组合可确保你的刮擦操作保持快速、高效和不被发现。

相关推荐
Yz987616 分钟前
使用sqoop报错
大数据·linux·数据库·hadoop·apache·big data·sqoop
王俊山IT21 分钟前
C++学习笔记----7、使用类与对象获得高性能(二)---- 理解对象生命周期(7)
开发语言·c++·笔记·学习
SUGERBOOM27 分钟前
【网络安全】网络基础第一阶段——第二节:网络协议基础---- 路由和ARP协议
网络·网络协议
goTsHgo32 分钟前
spark的stage划分的原理
大数据·分布式·spark
Jurio.44 分钟前
【JPCS出版】第二届应用统计、建模与先进算法国际学术会议(ASMA2024,9月27日-29)
大数据·人工智能·深度学习·算法·机器学习·数学建模
luthane1 小时前
python 实现bailey borwein plouffe算法
开发语言·python·算法
大侠之运维1 小时前
在excel中使用python?
开发语言·python·excel
感谢地心引力1 小时前
【matlab】将程序打包为exe文件(matlab r2023a为例)
开发语言·matlab
蓝色洛特1 小时前
【Matlab 肌电信号分析】
开发语言·matlab·信号处理·肌电信号
ljp_nan1 小时前
Qt --- 常用控件的介绍 --- 其他控件
开发语言·qt