Scrapy 爬取旅游景点相关数据(八)重用代理

本期学习:代理的使用与代理池的更新

1 代理IP提取

Scrapy 爬取旅游景点相关数据(六)已经讲到了代理的使用,可以先学习这一期再来看本期内容,

第一步是代理IP提取,下面代码就是在中间件初始化的时候去更新代理池,后面这个2是一次更新的代理服务器的数量,可以看到,代理池是一个列表:

python 复制代码
 class ProxyMiddleware:
    def __init__(self):
        self.proxies = []  #代理池
        self.user = '***'
        self.passw = '***'
        self.update_proxies()  #初始化的时候更新代理池
        self.logger = logging.getLogger(__name__)

    def update_proxies(self):
        self.proxies = get_proxy(self.user, 2)  #这个方法要根据你使用的代理服务自己定制

2 代理使用

使用方式很简单,就是在process_request里加到request.meta里面,注意到,这边先判断了代理池是否是空的,如果是空的,也会触发更新代理池的操作。

python 复制代码
    def process_request(self, request, spider):
        if not self.proxies:
            self.update_proxies()
        proxy = random.choice(self.proxies)
        # print(f"目前使用的代理是:http://{proxy}")
        request.meta['proxy'] = f"http://{self.user}:{self.passw}@{proxy}"
        user_agent_list = [
           ....
        ]
        request.headers['User-Agent'] = random.choice(user_agent_list)

3 异常处理

代理服务器可能存在问题,比如生命期过了,或者被目标网站禁掉了,所以必须要增加异常处理机制,这边特别要说的是这个 TunnelError ,我使用的代理在服务器过期的情况下会抛这个异常,所以异常处理里面需要处理的异常要根据自己的实际情况来写写,下面代码只是给一个参考:

python 复制代码
 # 如果请求过程中发生异常(如网络错误或连接错误),process_exception 方法被调用。
    def process_exception(self, request, exception, spider):
        self.logger.error(f'请求过程中发生异常{type(exception).__name__}' )
        if isinstance(exception, (MaxRetryError, ConnectionError, TunnelError,
                                  ConnectionRefusedError, ResponseNeverReceived)):
            self.logger.warning('出现连接异常,清除代理..')
            self.logger.warning(request.meta.get('proxy'))
            self.remove_proxy(request.meta.get('proxy'))
            return self.retry_request(request)
        return request
        
        
  # 是否要根据异常删除代理池中的代理,也请根据实际测试下来的结果加以修改
   def remove_proxy(self, proxy):
        ip_port = proxy.replace("http://", "")
        self.logger.warning(f'删除代理: {ip_port}')
        self.logger.info(self.proxies)
        self.proxies = [p for p in self.proxies if f"{p}" != ip_port]
        self.logger.info(self.proxies)
        
  # 重试
  def retry_request(self, request):
        if not self.proxies:
            self.update_proxies()
        proxy = random.choice(self.proxies)
        self.logger.info(f"重试,目前使用的代理是: http://{proxy}")
        self.logger.info(self.proxies)

        request.meta['proxy'] = f"http://{self.user}:{self.passw}@{proxy}"
        user_agent_list = [
            ...
        ]
        request.headers['User-Agent'] = random.choice(user_agent_list)

        return request

remove_proxy 会删除指定的代理地址

retry_request 会重发请求

4 测试

小结

开发爬虫是一个非常考验耐心和细心的工作,需要投入大量时间研究,如果对其他内容感兴趣可以去我的专栏,里面还有其他【项目实战】文章。

相关推荐
张槊哲8 分钟前
函数的定义与使用(python)
开发语言·python
船长@Quant13 分钟前
文档构建:Sphinx全面使用指南 — 实战篇
python·markdown·sphinx·文档构建
瞎胡侃35 分钟前
Spark读取Apollo配置
大数据·spark·apollo
悻运37 分钟前
如何配置Spark
大数据·分布式·spark
懒惰的橘猫1 小时前
Spark集群搭建之Yarn模式
大数据·分布式·spark
偶尔微微一笑1 小时前
AI网络渗透kali应用(gptshell)
linux·人工智能·python·自然语言处理·编辑器
2401_824256861 小时前
Spark-Streaming
大数据·分布式·spark
jjw_zyfx1 小时前
成熟的前端vue vite websocket,Django后端实现方案包含主动断开websocket连接的实现
前端·vue.js·websocket
胡耀超1 小时前
附1:深度解读:《金融数据安全 数据安全分级指南》——数据分类的艺术专栏系列
大数据·金融·数据治理·生命周期·数据分类·政策法规
合新通信 | 让光不负所托1 小时前
【合新通信】浸没式液冷光模块与冷媒兼容性测试技术报告
大数据·网络·光纤通信