Python爬虫HTTP代理使用教程

Python爬虫实战教程里怎么使用HTTP代理。我需要整理一下搜索结果里的信息，然后分步骤说明。

综合这些信息，按照我的思路应该分几个部分来回答：基础配置（urllib和requests）、代理池的构建与管理、处理认证、结合其他反反爬措施、注意事项等。每个部分引用对应的网页作为支持。

最后，可能还需要提醒用户选择高质量代理，免费代理可能不稳定，如之前提到的测试结果很多不可用，所以建议使用可靠供应商。这样整个教程会比较全面，涵盖基础到进阶的内容，用户可以根据需要选择不同的方法。

以下是Python爬虫中使用HTTP代理的实战教程，结合不同场景和工具提供详细实现方法：

一、HTTP代理基础配置

1. 使用`requests`库配置代理

requests库是最常用的HTTP请求库，通过proxies参数直接设置代理：

rust 复制代码

import requests

proxies = {
    'http': 'http://127.0.0.1:8080',
    'https': 'http://127.0.0.1:8080'
}
response = requests.get('http://example.com', proxies=proxies)
print(response.text)

认证代理 ：若代理需用户名密码，格式为http://user:pass@ip:port。

动态切换代理池：结合随机选择代理IP提升安全性：

ini 复制代码

import random
proxy_pool = ["http://192.168.0.1:8080", "http://192.168.0.2:8888"]
proxy = random.choice(proxy_pool)
response = requests.get(url, proxies={'http': proxy})

2. 使用`urllib`库配置代理

适用于标准库场景，需通过ProxyHandler和Opener对象实现：

ini 复制代码

from urllib.request import ProxyHandler, build_opener

proxy_handler = ProxyHandler({'http': 'http://127.0.0.1:8080'})
opener = build_opener(proxy_handler)
response = opener.open('http://example.com')
print(response.read())

全局安装代理 ：调用install_opener(opener)后所有urlopen请求自动使用代理。

二、代理池的构建与管理

1. 代理IP获取与验证

来源：免费网站（如炎帝云）、付费API或自建代理服务器。

验证可用性：通过发送测试请求筛选有效IP：

python 复制代码

def test_proxy(proxy):
    try:
        resp = requests.get('http://httpbin.org/get', proxies={'http': proxy}, timeout=3)
        return resp.status_code == 200
    except:
        return False

2. 自动维护代理池

通过爬虫定期抓取并更新代理IP，保存至文件或数据库：

ruby 复制代码

class IpPool:
    def __init__(self):
        self.proxy_list = []
    
    def crawl_proxies(self):
        # 从目标网站抓取IP并存入列表
        pass
    
    def update_pool(self):
        self.proxy_list = [proxy for proxy in crawled_proxies if test_proxy(proxy)]

三、高级应用与反反爬策略

1. 结合中间件自动切换代理（以Scrapy为例）

在Scrapy框架中，通过自定义中间件实现动态代理：