爬虫入门到精通_实战篇10(使用Redis+Flask维护动态代理池)

1 目标

为什么要用代理池

  • 许多网站有专门的反爬虫措施,可能遇到封IP等问题。
  • 互联网上公开了大量免费代理,利用好资源。
  • 通过定时的检测维护同样可以得到多个可用代理。

代理池的要求

  • 多站抓取,异步检测
  • 定时筛选,持续更新
  • 提供接口,易于提取

2 流程框架

代理池架构:

3 实战

代码下载

github一位大神的源码作为参考:https://github.com/germey/proxypool

flask运行需要安装:

virtualenv是一个虚拟的Python环境构建器。它帮助用户并行创建多个Python环境。因此,它可以避免不同版本的库之间的兼容性问题。

复制代码
# 以下命令用于安装virtualenv:
pip install virtualenv

# 安装后,将在文件夹中创建新的虚拟环境。
mkdir newproj
cd newproj
virtualenv venv

# 要在 Windows 上激活相应的环境,可以使用以下命令:
venv\scripts\activate

# 现在准备在这个环境中安装Flask:
pip install Flask

目录结构及介绍

examples目录是示例

proxypool:程序的源代码

run:程序入口

setup:安装代理池,代理池安装到python包

run.py

运行一个调度器schedule,运行一个接口api

schedule.py

Schedule.valid_proxy:网上获取代理,筛选代理,存到数据库

Schedule.check_pool:定时检查清理代理

set_raw_proxies:存放可用代理数组

async:异步检测

test_single_proxy:测试单个代理

test:测试代理是否可用

FreeProxyGetter():各大网站抓取代理的类

is_over_threshold:代理池满没满

callback:动态拿到crawl_方法的名称

db.py

redis队列的一些操作:

连接数据库:

从数据库获取代理:

上图是:从左侧批量(count)获取多少个代理。

插入代理:

上图是:将新代理放入右侧,所以右侧代理比左侧代理新。

api获取最新可用代理:

获取代理数量及更新:

getter.py

添加属性,将方法名汇总起来。

crawl_的方法放入列表

api.py

总结

动态获取方式和使用挺好玩的。

相关推荐
MATLAB代码顾问7 小时前
5大智能算法优化标准测试函数对比(Python实现)
开发语言·python
ting94520007 小时前
Tornado 全栈技术深度指南:从原理到实战
人工智能·python·架构·tornado
果汁华8 小时前
Browserbase Skills:让 Claude Agent 真正“看见“网页世界
人工智能·python
ZhengEnCi8 小时前
04-缩放点积注意力代码实现 💻
人工智能·python
DeepReinforce8 小时前
三、AI量化投资:使用akshare获取A股主板20260430所有的涨停股票
python·量化·akshare·龙头战法
段一凡-华北理工大学9 小时前
【高炉炼铁领域炉温监测、预警、调控智能体设计与应用】~系列文章08:多模态数据融合:让数据更聪明
人工智能·python·高炉炼铁·ai赋能·工业智能体·高炉炉温
万粉变现经纪人9 小时前
如何解决 pip install llama-cpp-python 报错 未安装 CMake/Ninja 或 CPU 不支持 AVX 问题
开发语言·python·开源·aigc·pip·ai写作·llama
其实防守也摸鱼9 小时前
CTF密码学综合教学指南--第五章
开发语言·网络·笔记·python·安全·网络安全·密码学
callJJ10 小时前
Spring Data Redis 两种编程模型详解:同步 vs 响应式
java·spring boot·redis·python·spring
小郑加油10 小时前
python学习Day12:pandas安装与实际运用
开发语言·python·学习