【Python】爬虫使用代理IP

昨天今天明天好多天2024-11-10 19:29

1、代理池

IP 代理池可以理解为一个池子，里面装了很多代理IP。

池子里的IP是有生命周期的，它们将被定期验证，其中失效的将被从池子里面剔除
池子里的ip是有补充渠道的，会有新的代理ip不断被加入池子中
池子中的代理ip是可以被随机取出的

2、为什么要用代理池

一些大型的网站（尤其是电商类网站），为了禁止爬虫获取数据，会采取限制同一个IP地址的网络请求数量、请求频率等方式，进行网站反扒。

而使用IP代理池后的爬虫，就可以隐藏自己IP，并且随机更换请求时的IP地址，绕过该反爬机制，快速获取大量数据。

3、代理IP获取

一些网站提供免费的代理IP，这个不稳定，并且很多都不能用。

收费的网站（如需求量不大，白嫖注册赠送的 IP 即可）：

巨量IP => 注册赠送 1000 IP

4、代理IP使用

获取代理IP（以巨量IP为例）：

代码：

python 复制代码

    api_url = 'http://v2.api.juliangip.com/dynamic/getips...'
    username = '13255667788'
    password = '123456'
    proxy_ip_list = requests.get(api_url).json()['data']['proxy_list']
    for proxy_ip in proxy_ip_list:
        proxies = {
            "http": "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy_ip},
            "https": "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy_ip},
        }
        target_url = 'https://myip.ipip.net/'
        resp = requests.get(target_url, proxies=proxies)
        print(f'{proxy_ip} ------ {resp.text}')

【Python】爬虫使用代理IP

1、代理池

2、为什么要用代理池

3、代理IP获取

4、代理IP使用

10、资料