1、代理池
IP 代理池可以理解为一个池子,里面装了很多代理IP。
- 池子里的IP是有生命周期的,它们将被定期验证,其中失效的将被从池子里面剔除
- 池子里的ip是有补充渠道的,会有新的代理ip不断被加入池子中
- 池子中的代理ip是可以被随机取出的
2、为什么要用代理池
一些大型的网站(尤其是电商类网站),为了禁止爬虫获取数据,会采取限制同一个IP地址的网络请求数量、请求频率等方式,进行网站反扒。
而使用IP代理池后的爬虫,就可以隐藏自己IP,并且随机更换请求时的IP地址,绕过该反爬机制,快速获取大量数据。
3、代理IP获取
一些网站提供免费的代理IP,这个不稳定,并且很多都不能用。
收费的网站(如需求量不大,白嫖注册赠送的 IP 即可):
4、代理IP使用
获取代理IP(以巨量IP为例):
代码:
python
api_url = 'http://v2.api.juliangip.com/dynamic/getips...'
username = '13255667788'
password = '123456'
proxy_ip_list = requests.get(api_url).json()['data']['proxy_list']
for proxy_ip in proxy_ip_list:
proxies = {
"http": "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy_ip},
"https": "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy_ip},
}
target_url = 'https://myip.ipip.net/'
resp = requests.get(target_url, proxies=proxies)
print(f'{proxy_ip} ------ {resp.text}')