Python 爬虫稳定性：超时控制与自动重试机制

网络请求天然不可靠，一个生产级爬虫必须能优雅地处理超时、SSL 错误和请求失败。本文系统讲解 timeout 参数用法与 retrying 自动重试装饰器的最佳实践。

为什么超时控制不可或缺
timeout 参数详解
verify 参数：跳过 SSL 验证
用 retrying 实现自动重试
retrying 核心参数速查
组合使用：超时 + 重试 + 代理池联动

①为什么超时控制不可或缺

requests 默认没有超时限制------如果目标服务器不响应，程序会永远挂起等待。这在批量爬取时是灾难性的：一个卡死的请求会阻塞整个队列，代理池里的失效节点也无法被及时剔除。

发出请求→服务器无响应→无超时：永久阻塞vs有超时：抛出异常 → 继续下一个

设置合理的超时是爬虫从"能跑"到"稳定跑"的关键一步，也是代理池健康管理的前提。

②timeout 参数详解

requests 的 timeout 参数支持两种写法：传单个数值或传元组，语义不同。

复制代码

# 写法一：单值，同时限制连接超时和读取超时
resp = requests.get(url, timeout=3)

# 写法二：元组 (connect_timeout, read_timeout)，分别控制
# 3 秒内未建立连接就放弃；建立连接后 10 秒内没有新数据也放弃
resp = requests.get(url, timeout=(3, 10))

写法	含义	适用场景
timeout=3	连接 + 读取总共不超过 3 秒	快速 API、轻量页面
timeout=(3, 10)	连接 3 秒，读取 10 秒	大文件下载、响应体较大的页面
timeout=None	无限等待（默认值）	几乎不应使用

超时触发后 requests 会抛出 requests.exceptions.Timeout 异常，务必配合 try/except 捕获，否则程序仍会崩溃。

复制代码

import requests

def fetch(url):
    headers = {"User-Agent": "Mozilla/5.0 ..."}
    data = {"uname": "admin", "passwd": "admin"}
    try:
        resp = requests.get(
            url,
            headers=headers,
            data=data,
            verify=False,   # 跳过 SSL 证书验证（见下节）
            timeout=3       # 3 秒无响应则放弃
        )
        return resp.content.decode("utf-8")
    except requests.exceptions.Timeout:
        print("超时，跳过此请求")
    except requests.exceptions.RequestException as e:
        print(f"请求异常：{e}")
    return None

if __name__ == "__main__":
    print(fetch("http://example.com/page"))

③verify 参数：跳过 SSL 验证

访问 HTTPS 网站时，requests 默认验证 SSL 证书。某些网站使用自签名证书或证书已过期，会导致 SSLError。传入 verify=False 可临时跳过这一检查。

关闭 SSL 验证会带来中间人攻击风险，切勿在涉及账号密码、支付信息的请求上使用。仅用于爬取公开内容的测试/开发环境。同时建议加上 urllib3.disable_warnings() 压制控制台的 InsecureRequestWarning 警告。

复制代码

import requests
import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

resp = requests.get("https://self-signed.example.com", verify=False, timeout=5)

④用 retrying 实现自动重试

网络抖动、服务器偶发 5xx、代理临时失效------这些故障往往是暂时的，重试一次就能成功。手写重试逻辑繁琐，retrying 库提供了装饰器方案，一行注解搞定。

pip install retrying

复制代码

import requests
from retrying import retry

# 失败后最多重试 3 次（含首次），仍失败则向上抛出异常
@retry(stop_max_attempt_number=3)
def fetch_page(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                      "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90"
    }
    # 没有 try/except：抛出异常才会触发 retrying 的重试机制
    res = requests.get(url=url, headers=headers, timeout=5)
    res.raise_for_status()  # 4xx/5xx 状态码同样触发重试
    with open("page.html", "wb") as f:
        f.write(res.content)

def main():
    try:
        fetch_page("http://example.com/list/page-1/")
    except Exception as e:
        print(f"3 次重试均失败：{e}")  # 记录日志或标记任务失败

if __name__ == "__main__":
    main()

retrying 的工作原理：被装饰的函数抛出任意异常时，自动重新调用，直到成功或达到最大次数。因此函数内部不应吞掉异常（不要用裸 except pass），否则 retrying 无法感知失败。

⑤retrying 核心参数速查

参数	含义	示例
stop_max_attempt_number	最大尝试总次数（含首次）	=3
stop_max_delay	从首次调用起最长等待毫秒数	=10000（10 秒）
wait_fixed	每次重试前固定等待毫秒	=2000（等 2 秒再重试）
wait_random_min / max	随机等待区间（毫秒），模拟人类行为	wait_random_min=1000, wait_random_max=3000
retry_on_exception	传入函数，决定哪些异常触发重试	=lambda e: isinstance(e, Timeout)

⑥组合使用：超时 + 重试 + 代理池联动

三者结合是构建稳健爬虫的标准模式：超时快速识别失效代理，重试自动切换并补偿，代理池及时淘汰失效节点。

复制代码

import requests
from retrying import retry

PROXY_POOL = [
    "http://1.2.3.4:8888",
    "http://5.6.7.8:9999",
]

@retry(stop_max_attempt_number=3, wait_fixed=1000)
def fetch_with_proxy(url, proxy):
    proxies = {"http": proxy, "https": proxy}
    resp = requests.get(url, proxies=proxies, timeout=5)
    resp.raise_for_status()
    return resp.content

def main(url):
    for proxy in PROXY_POOL:
        try:
            content = fetch_with_proxy(url, proxy)
            print(f"成功，代理：{proxy}")
            return content
        except Exception:
            print(f"代理 {proxy} 失效，从池中移除")
            PROXY_POOL.remove(proxy)  # 超时/失败则剔除代理
    print("代理池已耗尽")

if __name__ == "__main__":
    main("http://example.com/data")

✓小结

超时设置 timeout=(3, 10)

SSL 问题 verify=False

自动重试 @retry(次数=3)

代理联动 失效即剔除

超时是爬虫稳定性的最基础保障，重试是应对偶发性网络故障的标准手段，两者结合代理池的动态管理，共同构成生产级爬虫的容错体系。