架构学习(五):scrapy实现自定义代理中间件

scrapy实现自定义代理中间件

前言

ip检测是比较常规的反爬手段,一般站点会限制ip的访问频率,或者根据ip的访问规律和频率来识别异常访问,从而点对点封ip。相信大家对代理ip并不陌生,这是ip反爬的绕过方式,且进一步衍生出代理池。

按笔者过往经验来看:

  1. 站点限制ip但不会绑定其他信息,这种情况下我们只要每次请求都切换ip即可(短效ip)
  2. 站点限制ip且绑定cookie等信息,可以每次切换ip时生成一次cookie;或者一个ip直接采集完(长效ip)

各站点的风控机制不同,大家以后遇到的话需要研究它的风控机制并设计突破方案,这个过程需要不断试错,控制变量并找出规律,而这种攻坚过程对逆向思维的训练是很有帮助的。

关卡:实现自定义代理中间件

代理中间件源码解析

进入scrapy->downloadermiddlewares->httpproxy.pyHttpProxyMiddleware便是原生的代理中间件,主要功能逻辑是process_request方法,我们研究它干了什么

从源码中我们可以知道配置代理的方式

  1. 通过配置request.meta["proxy"]来实现代理切换,它的样式是{protocol}://{username}:{password}@{host}:{port}
  2. 利用requests库的getproxies()函数,它返回当前环境变量中配置的代理设置,也就是self.proxies,在HttpProxyMiddleware初始化时实现

代理池

市面上有很多代理ip厂商,他们的产品有很多种,如隧道代理、短效代理等,有兴趣或者有需求的可以去咨询了解。但是这些代理商是服务众多用户的,他提供的代理池质量不一定能满足我们的需求,最好的选择就是维护一套属于自己的高质量代理池。

有兴趣可以看看这篇博客 高效代理池的维护

自定义代理中间件

笔者这里使用的是自己的代理池,通过接口拿到代理字典,需要使用时随机取值即可

powershell 复制代码
{
    "status":1,
    "data":[
        {
            "host":host,
            "port":port,
            "create_time":create_time,
            "expired_time":expired_time,
            "priority":priority,
            "protocol":protocol,
            "source":"source"
        }
    ]
}

主要功能逻辑

python 复制代码
def process_request(self, request, spider):
    """ 默认代理会一直使用,可以使用下面的参数实现动态使用
    meta auto_change_proxy change_proxy _proxy
    1. auto_change_proxy:程序自动指定代理
    2. change_proxy:更新代理(单次)
    3. _proxy:存储上一次代理
    """
    meta = request.meta
    add_proxy_meta = False

    if spider.proxy:  # 使用代理
        if meta.get('auto_change_proxy', None) or meta.get('change_proxy', None):
            add_proxy_meta = True
        elif not meta.get('proxy'):
            add_proxy_meta = True

    # 白名单处理
    if add_proxy_meta:
        for pattern in spider.custom_settings.get('whitelist_pattern', []) + \
                       meta.get('proxy_whitelist_pattern', []):
            if re.search(pattern, request.url):
                add_proxy_meta = False
                if meta.get('proxy'):
                    request.meta['_proxy'] = meta['proxy']
                    del meta['proxy']
                break

    if add_proxy_meta:
        get_suc, get_proxy = self.get_random_proxy(spider.crawler.settings.attributes['PROXY_POOL_URL'].value)
        if not get_suc:
            spider.print_log(get_proxy, log_type='error')
            # todo: 代理异常处理
        else:
            spider.print_log(f'随机代理: {get_proxy}')
            request.meta['proxy'] = get_proxy

设计逻辑如下:

  1. 脚本全局增加proxy参数,集中控制代理使用与否
  2. request.meta增加auto_change_proxychange_proxy_proxy参数来实现动态切换和固定使用
  3. 增加白名单机制,对指定站点采集不使用代理
  4. 日志记录与异常提醒

结束

这个关卡的设计方案是笔者根据自己业务场景实现的,大家如果有同样的需求,需要结合自己的业务场景来思考、设计与实现。

好了,分享就到这了,有啥错误的地方请指正~

相关推荐
SmartBrain4 小时前
DeerFlow 实践:华为IPD流程的评审智能体设计
人工智能·语言模型·架构
Hello_Embed8 小时前
STM32HAL 快速入门(二十):UART 中断改进 —— 环形缓冲区解决数据丢失
笔记·stm32·单片机·学习·嵌入式软件
咸甜适中8 小时前
rust语言 (1.88) 学习笔记:客户端和服务器端同在一个项目中
笔记·学习·rust
Magnetic_h9 小时前
【iOS】设计模式复习
笔记·学习·ios·设计模式·objective-c·cocoa
一水鉴天9 小时前
整体设计 之 绪 思维导图引擎 之 引 认知系统 之 序 认知元架构 从 三种机器 和 PropertyType 到认知 金字塔 之2(豆包助手)
架构·认知科学
研梦非凡10 小时前
ICCV 2025|从粗到细:用于高效3D高斯溅射的可学习离散小波变换
人工智能·深度学习·学习·3d
limengshi13839211 小时前
机器学习面试:请介绍几种常用的学习率衰减方式
人工智能·学习·机器学习
知识分享小能手11 小时前
React学习教程,从入门到精通,React 组件核心语法知识点详解(类组件体系)(19)
前端·javascript·vue.js·学习·react.js·react·anti-design-vue
周周记笔记12 小时前
学习笔记:第一个Python程序
笔记·学习
优雅鹅12 小时前
ARM、AArch64、amd64、x86_64、x86有什么区别?
arm开发·学习