使用 Puppeteer 绕过 Captcha:实现商家数据自动化采集

背景/引言

大众点评作为中国领先的本地生活服务平台,不仅是消费者获取商家信息和用户评价的重要工具,同时也是商家推广的关键渠道。通过优质的内容呈现和精准的用户推荐,大众点评能够为商家带来显著的流量提升和品牌曝光,成为商业竞争中不可忽视的资源。

对于技术从业者,采集大众点评的商家数据可以用于市场动态研究、用户行为分析以及商家推广策略制定。然而,大众点评的控制机制(如 Captcha 验证)使自动化采集变得困难重重。为应对这些挑战,本文将介绍如何使用 Puppeteer,通过代理 IP、用户伪装等技术,轻松绕过 Captcha,实现对商家信息的高效采集。


技术实现

1. 工具与技术概述
  • Puppeteer:一个强大的无头浏览器自动化工具,支持模拟用户操作,轻松处理动态页面和复杂交互。
  • 代理 IP:通过隐藏真实 IP,规避访问限制,提升爬虫稳定性。
  • 用户伪装技术:通过设置 User-Agent 和 Cookies 模拟真实用户行为,降低被识别的风险。
2. 关键步骤
  • 配置 Puppeteer 和代理 IP。
  • 设置用户伪装参数(User-Agent 和 Cookie)。
  • 模拟人类操作(滚动、延迟访问等),避免触发 Captcha。
  • 提取目标页面的商家信息数据。

实例代码

以下是完整实现代码,以采集大众点评商家信息为例,结合爬虫代理实现稳定的网络访问。

javascript 复制代码
const puppeteer = require('puppeteer');

// 代理信息配置(以亿牛云爬虫代理为例 www.16yun.cn)
const proxyConfig = {
    host: 'proxy.16yun.cn', // 代理服务器地址
    port: '12345',              // 代理端口号
    username: 'your_username',  // 代理用户名
    password: 'your_password'   // 代理密码
};

// 目标 URL
const targetUrl = 'https://www.dianping.com/search/keyword/1/0_商家关键字';

(async () => {
    // 启动 Puppeteer,配置代理
    const browser = await puppeteer.launch({
        headless: false, // 设置为 false 以便调试
        args: [`--proxy-server=${proxyConfig.host}:${proxyConfig.port}`] // 配置代理服务器
    });

    const page = await browser.newPage();

    // 设置用户代理(User-Agent)
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
    );

    // 设置 Cookie(可从浏览器中登录后提取有效的 Cookie)
    const cookies = [
        {
            name: 'cookieName',
            value: 'cookieValue',
            domain: '.dianping.com'
        }
    ];
    await page.setCookie(...cookies);

    // 配置 HTTP Basic Auth 代理认证
    await page.authenticate({
        username: proxyConfig.username,
        password: proxyConfig.password
    });

    // 访问目标 URL
    try {
        console.log('正在访问目标页面...');
        await page.goto(targetUrl, { waitUntil: 'networkidle2' });

        // 模拟滚动,加载更多数据
        await page.evaluate(() => {
            return new Promise((resolve) => {
                let totalHeight = 0;
                const distance = 100;
                const timer = setInterval(() => {
                    const scrollHeight = document.body.scrollHeight;
                    window.scrollBy(0, distance);
                    totalHeight += distance;

                    if (totalHeight >= scrollHeight) {
                        clearInterval(timer);
                        resolve();
                    }
                }, 100);
            });
        });

        // 提取商家信息
        const data = await page.evaluate(() => {
            const result = [];
            const items = document.querySelectorAll('.shop-all-list li'); // 根据实际 DOM 调整选择器
            items.forEach(item => {
                const name = item.querySelector('.tit a')?.textContent.trim();
                const address = item.querySelector('.addr')?.textContent.trim();
                const rating = item.querySelector('.comment-list .item-rank-rst')?.getAttribute('title');
                if (name && address) {
                    result.push({ name, address, rating });
                }
            });
            return result;
        });

        console.log('采集到的数据:', data);
    } catch (error) {
        console.error('页面加载或采集时出错:', error);
    } finally {
        await browser.close();
    }
})();

结论

通过本文的示例代码,我们展示了如何使用 Puppeteer 绕过 Captcha 实现对大众点评商家信息的高效采集。结合代理 IP、用户伪装等技术,不仅可以大幅提升爬虫的隐蔽性和稳定性,还能灵活应对复杂的反爬机制。

需要注意的是,数据采集必须遵循合法合规的原则,并尊重目标网站的使用政策。在实际应用中,可根据需求调整采集逻辑和伪装策略,将爬虫技术应用于更多业务场景中,为数据驱动的决策提供技术支持。

相关推荐
少年白char14 小时前
【AI漫剧】开源自动化AI漫剧生成工具 - 从文字到影像:AI故事视频创作的全新可能
运维·人工智能·自动化
搞科研的小刘选手14 小时前
【IEEE出版】第九届智能制造与自动化国际学术会议(IMA 2026)
自动化·智能制造·学术会议·发动机制造·自动控制与信息技术
容智信息14 小时前
容智Report Agent智能体驱动财务自动化,从核算迈向价值创造
大数据·运维·人工智能·自然语言处理·自动化·政务
b***251116 小时前
18650与21700电芯电池组PACK自动化生产线的核心差异与协同发展
运维·自动化
子夜江寒17 小时前
基于Selenium的自动化Web数据采集实践
selenium·自动化
北京耐用通信18 小时前
工程师实战:如何以最小成本,耐达讯自动化无缝连接Profinet转DeviceNet网关
人工智能·物联网·网络协议·自动化·信息与通信
benxin123418 小时前
智能压力测试代理系统:基于AI的自动化压测解决方案
人工智能·自动化·压力测试
测试人社区-千羽18 小时前
飞机自动驾驶系统测试:安全关键系统的全面验证框架
人工智能·安全·面试·职场和发展·自动化·自动驾驶·测试用例
阿尔泰科技官方18 小时前
阿尔泰科技 NET8722多功能测量仪:多类型测量、通道拓展无压力!
自动化·以太网·传感器·数据采集卡·工业测试
雨大王51218 小时前
汽车厂内物流如何通过自动化实现降本增效?
运维·自动化