【Python】爬虫使用代理IP

1、代理池

IP 代理池可以理解为一个池子,里面装了很多代理IP。

  • 池子里的IP是有生命周期的,它们将被定期验证,其中失效的将被从池子里面剔除
  • 池子里的ip是有补充渠道的,会有新的代理ip不断被加入池子中
  • 池子中的代理ip是可以被随机取出的

2、为什么要用代理池

一些大型的网站(尤其是电商类网站),为了禁止爬虫获取数据,会采取限制同一个IP地址的网络请求数量、请求频率等方式,进行网站反扒。

而使用IP代理池后的爬虫,就可以隐藏自己IP,并且随机更换请求时的IP地址,绕过该反爬机制,快速获取大量数据。

3、代理IP获取

一些网站提供免费的代理IP,这个不稳定,并且很多都不能用。

收费的网站(如需求量不大,白嫖注册赠送的 IP 即可):

4、代理IP使用

获取代理IP(以巨量IP为例):

代码:

python 复制代码
    api_url = 'http://v2.api.juliangip.com/dynamic/getips...'
    username = '13255667788'
    password = '123456'
    proxy_ip_list = requests.get(api_url).json()['data']['proxy_list']
    for proxy_ip in proxy_ip_list:
        proxies = {
            "http": "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy_ip},
            "https": "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy_ip},
        }
        target_url = 'https://myip.ipip.net/'
        resp = requests.get(target_url, proxies=proxies)
        print(f'{proxy_ip} ------ {resp.text}')

10、资料

相关推荐
dagouaofei20 分钟前
AI生成个性化年终总结PPT
人工智能·python·powerpoint
white-persist2 小时前
VSCode 快捷键大全:从设计理念到场景化高效运用(详细解析)(文章末尾有vim快捷键大全)
linux·ide·vscode·python·编辑器·系统安全·vim
liliangcsdn2 小时前
python threading异步并发调用示例
python
计算机毕设匠心工作室2 小时前
【python大数据毕设实战】全面皮肤病症状数据可视化分析系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习、实战教学
后端·python·mysql
码界奇点2 小时前
基于Python与Pygame的多功能游戏系统设计与实现
python·游戏·毕业设计·pygame·源代码管理
万邦科技Lafite2 小时前
一键获取淘宝店铺所有商品信息,实时监控商品数据
开发语言·数据库·python·api·开放api·电商开放平台·淘宝开放平台
小糖学代码3 小时前
LLM系列:1.python入门:2.数值型对象
人工智能·python·ai
零日失眠者3 小时前
这5个Python库一旦掌握就离不开
后端·python
用户8356290780513 小时前
如何使用 Python 从 Word 文档中批量提取表格数据
后端·python
Jerryhut3 小时前
sklearn函数总结四——归一化和标准化
人工智能·python·机器学习·jupyter·sklearn