架构学习(四):scrapy下载中间件实现动态切换User-Agent

scrapy下载中间件实现动态与固定UserAgent

前言

请求头User-Agent是比较常规的反爬手段,不同站点对其检测机制各异,有的是检测是否是合规的浏览器User-Agent,有的是在这基础上检测使用次数与频率,更有甚者是跟ip和cookie绑定在一起检测,这就要求我们能够动态去切换User-Agent(随机or判定切换)。

关卡:实现动态切换User-Agent

scrapy设置User-Agent方式梳理

这里整理一下笔者已知的scrapy设置User-Agent的方式:

  1. setting配置文件中设置DEFAULT_REQUEST_HEADERS
  2. 生成requests请求时设置请求头
  3. setting配置文件中设置USER_AGENT
    我们在源码看一下USER_AGENT的默认值

    scrapy是有自带的USER_AGENT中间件的,而USER_AGENT就是跟它一起配合生效的,这个中间件默认也是开启的。所以大家注意了,如果我们直接使用scrapy自带的USER_AGENT机制,是很容易被是被为爬虫的!!!
  4. 自定义User-Agent下载中间件,这种方式其实跟方式3是一样的逻辑

User-Agent生效梳理

我们来调试一下方式1方式2方式3,看看三种方式同时设置时最终是哪个方式生效

如下图,按顺序分别为三种方式设置好User-Agent

如下图,在发起请求生成request队列前,方式1设置成功

如下图,生成request队列后,经过下载中间件可以看到方式2覆盖了方式1

我们仔细看下中间件的代码,特别是process_request这个具体实现方法。

在此之前先了解一下setdefault这个方法:
setdefault是Python中字典的一个方法, 它用于在字典中查找指定键 如果键存在, 则返回对应的值; 如果键不存在,则在字典中添加该键,并将其值设置为指定的默认值

由于request.headersUser-Agent有值且是2,所以经过下载中间件后,它还是2

综上,我们可以得到结论:

  1. 方式1方式2方式3共存时,结果会取方式2
  2. 只存在方式1方式2时,结果会取方式2
  3. 只存在方式1方式3时,结果会取方式1
  4. 方式3要生效必须只有它这种方式

为何选择在下载中间件中实现

首先要说明一下,并非一定要在中间件中才能实现User-Agent动态切换,也可以在脚本开发中对每次生成的request请求时动态设置User-Agent(请求头),但这种方式在笔者看来是不符合python之美的,功能未解耦而不够灵活,每个脚本都要单独实现,既繁琐又提高学习成本。

自定义User-Agent下载中间件

既然选择自定义中间件,那我们就可以随便玩了

首先思考一下,根据需求整理出设计方案:

  1. 动态:随机生成User-Agent
  2. 切换:控制是否动态生成
  3. 全局:需要适配不同场景(固定、动态、切换)

通过上面的思考,在一个全局改动的位置要适配各式各样的脚本应用场景,就需要引入全局控制参数来实现点对点应用,下面是笔者的想法:

在request.meta中增加 auto_change_uachange_ua_ua三个参数来实现,
auto_change_ua是自动切换,每次request都会切换User-Agent
change_ua是一个切换,当前request会切换User-Agent
_ua是固定存储,不切换时一直使用它

同时准备User-Agent列表,用于随机生成,大致样式如下:

powershell 复制代码
def get_random_ua(self):
    """Return a ua if possible"""
    return random.choice(self.ua_list)

def process_request(self, request, spider):
    meta = request.meta
    ua = None

    if meta.get('auto_change_ua') or meta.get('change_ua', None):
        ua = self.get_random_ua()
    elif meta.get('_ua', None):
        ua = meta['_ua']
    elif not request.headers.get('User-Agent', None):
        ua = self.get_random_ua()

    if ua:
        request.headers['User-Agent'] = ua

def process_response(self, request, response, spider):
    request.meta['_ua'] = request.headers['User-Agent']
    if 'change_ua' in request.meta:
        del request.meta['change_ua']
    if 'auto_change_ua' in request.meta:
        request.meta['change_ua'] = True
    return response

开发好后需要在settingDOWNLOADER_MIDDLEWARES配置才能生效,同时,记得把原生的UserAgentMiddleware设置为None,不然它还是会开启的。

结束

这个关卡的设计方案是笔者根据自己业务场景实现的,大家如果有同样的需求,需要结合自己的业务场景来思考、设计与实现。

好了,分享就到这了,有啥错误的地方请指正~

相关推荐
小技与小术几秒前
数据结构之树与二叉树
开发语言·数据结构·python
hummhumm27 分钟前
第 25 章 - Golang 项目结构
java·开发语言·前端·后端·python·elasticsearch·golang
杜小满31 分钟前
周志华深度森林deep forest(deep-forest)最新可安装教程,仅需在pycharm中完成,超简单安装教程
python·随机森林·pycharm·集成学习
zmd-zk1 小时前
flink学习(2)——wordcount案例
大数据·开发语言·学习·flink
Chef_Chen1 小时前
从0开始学习机器学习--Day33--机器学习阶段总结
人工智能·学习·机器学习
databook1 小时前
『玩转Streamlit』--布局与容器组件
python·机器学习·数据分析
hopetomorrow2 小时前
学习路之压力测试--jmeter安装教程
学习·jmeter·压力测试
hopetomorrow2 小时前
学习路之PHP--使用GROUP BY 发生错误 SELECT list is not in GROUP BY clause .......... 解决
开发语言·学习·php
nuclear20112 小时前
使用Python 在Excel中创建和取消数据分组 - 详解
python·excel数据分组·创建excel分组·excel分类汇总·excel嵌套分组·excel大纲级别·取消excel分组
/**书香门第*/2 小时前
Cocos creator 3.8 支持的动画 7
学习·游戏·游戏引擎·游戏程序·cocos2d