python爬虫代理ip池搭建

最近大量爬取数据的时候总会遇到被封ip的情况,所有打算自己搭建一个代理ip池来使用。本次使用的是开源的ip代理池项目ProxyPool

1.下载redis数据库

redis安装

这里我选择直接下载redis的解压包形式,方便安装。下载地址:发布 ·TPORADOWSKI/REDIS (github.com)

下载完成直接解压就可以使用了,使用:redis-server.exe redis.windows.conf命令启动redis服务。也可以直接双击启动程序来启动redis服务

redis可视化工具

安装完成redis后,搭配可视化工具使用会更方便一些。下载连接:https://github.com/uglide/RedisDesktopManager/releases/download/0.9.3/redis-desktop-manager-0.9.3.817.exe

下载完成后选择想要的安装位置直接安装就行了,直接连接本地就行了,什么也不用填,只需要设置名字就行。

2.下载开源 ip代理池---ProxyPool

ProxyPool安装

下载地址:GitHub - Python3WebSpider/ProxyPool: An Efficient ProxyPool with Getter, Tester and Server

下载压缩包解压即可。

ProxyPool配置

可以让chatgpt帮忙把需要用到项目注释换成中文,如果项目报错缺少模块的缺什么模块安装什么模块就好:

进入到对应目录下修改一些配置,如redis数据库地址,密码,想要使用记号库之类的。如果是跟本教程来做的,不用修改这些配置直接启动run.py运行项目就行了。

项目启动后redis数据库结果如下,这些IP都在程序帮我们获取到的可以使用的IP:

ProxyPool的原理简单说一下,就是这个程序去网上获取ip,然后拿回来进行检查,如果是好的就放入IP池里面,同时程序还会自己检查IP池,如果池中出现坏了的IP,程序会将此IP丢出IP池,并重新放入一个可用的IP进入IP池。

有了IP池后,我们就可以编写程序去调用redis数据库,从数据库中获取一个ip拿来使用。大致代码如下(ProxyPool项目需要一直运行着,因为需要他来不断的给IP池进行补充和检查IP):

复制代码
import requests

# 从redis中随机获取代理IP
PROXY_POOL_URL = 'http://localhost:6379/random'

proxies = {
    'http': 'http://{}'.format(PROXY_POOL_URL),
    'https': 'https://{}'.format(PROXY_POOL_URL),
}

url = "目标网站的url"

# 使用代理ip去请求网站
res = response = requests.get(url, proxies=proxies)
相关推荐
qq 137401861116 分钟前
ISTA 2A-2011 (2022) 全解析|≤68kg 单个包装件部分模拟运输测试标准
网络·安全·安全性测试·ista·运输测试·运输包装
墨痕诉清风37 分钟前
Web浏览器客户端检测网站网络健康(代码)
前端·网络·测试工具
ElevenS_it1881 小时前
Redis监控实战:内存使用+命中率+连接数三类核心指标接入Zabbix+分级告警完整配置方案
运维·网络·redis·mybatis·zabbix
oo哦哦1 小时前
搜索矩阵系统的最短路密码:用Dijkstra算法和网络流理论,解释为什么你做了1000个关键词,流量还不如别人30个
网络·算法·矩阵
IP搭子来一个1 小时前
舆情监控系统怎么接入代理 IP?多平台多账号采集的配置全流程
网络协议·tcp/ip·数据分析
一起聊电气2 小时前
智能断路器:守护智能照明系统的AI电气安全闸门
网络·人工智能·安全
hu55667982 小时前
华硕路由RT-AC68U梅林固件外部网络(WAN) -自定义 DDNS
网络
cd_949217212 小时前
邮件安全联防预警平台“网哨M01”:全面联防对抗社工钓鱼攻击
网络·安全·web安全
德迅云安全-小潘2 小时前
了解并防范跨站脚本攻击,XSS攻击全解析,德迅云安全SCDN提供全方位的安全
网络·安全·xss
小贾要学习2 小时前
【Linux】基于自定义TCP协议的日期计算器
linux·网络·c++·网络协议·tcp/ip