Python 爬虫稳定性:超时控制与自动重试机制

网络请求天然不可靠,一个生产级爬虫必须能优雅地处理超时、SSL 错误和请求失败。本文系统讲解 timeout 参数用法与 retrying 自动重试装饰器的最佳实践。

目录

  1. 为什么超时控制不可或缺
  2. timeout 参数详解
  3. verify 参数:跳过 SSL 验证
  4. 用 retrying 实现自动重试
  5. retrying 核心参数速查
  6. 组合使用:超时 + 重试 + 代理池联动

①为什么超时控制不可或缺

requests 默认没有超时限制------如果目标服务器不响应,程序会永远挂起等待。这在批量爬取时是灾难性的:一个卡死的请求会阻塞整个队列,代理池里的失效节点也无法被及时剔除。

发出请求→服务器无响应→无超时:永久阻塞vs有超时:抛出异常 → 继续下一个

设置合理的超时是爬虫从"能跑"到"稳定跑"的关键一步,也是代理池健康管理的前提。

②timeout 参数详解

requests 的 timeout 参数支持两种写法:传单个数值或传元组,语义不同。

复制代码
# 写法一:单值,同时限制连接超时和读取超时
resp = requests.get(url, timeout=3)

# 写法二:元组 (connect_timeout, read_timeout),分别控制
# 3 秒内未建立连接就放弃;建立连接后 10 秒内没有新数据也放弃
resp = requests.get(url, timeout=(3, 10))
写法 含义 适用场景
timeout=3 连接 + 读取总共不超过 3 秒 快速 API、轻量页面
timeout=(3, 10) 连接 3 秒,读取 10 秒 大文件下载、响应体较大的页面
timeout=None 无限等待(默认值) 几乎不应使用

超时触发后 requests 会抛出 requests.exceptions.Timeout 异常,务必配合 try/except 捕获,否则程序仍会崩溃。

复制代码
import requests

def fetch(url):
    headers = {"User-Agent": "Mozilla/5.0 ..."}
    data = {"uname": "admin", "passwd": "admin"}
    try:
        resp = requests.get(
            url,
            headers=headers,
            data=data,
            verify=False,   # 跳过 SSL 证书验证(见下节)
            timeout=3       # 3 秒无响应则放弃
        )
        return resp.content.decode("utf-8")
    except requests.exceptions.Timeout:
        print("超时,跳过此请求")
    except requests.exceptions.RequestException as e:
        print(f"请求异常:{e}")
    return None

if __name__ == "__main__":
    print(fetch("http://example.com/page"))

③verify 参数:跳过 SSL 验证

访问 HTTPS 网站时,requests 默认验证 SSL 证书。某些网站使用自签名证书或证书已过期,会导致 SSLError。传入 verify=False 可临时跳过这一检查。

关闭 SSL 验证会带来中间人攻击风险,切勿在涉及账号密码、支付信息的请求上使用。仅用于爬取公开内容的测试/开发环境。同时建议加上 urllib3.disable_warnings() 压制控制台的 InsecureRequestWarning 警告。

复制代码
import requests
import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

resp = requests.get("https://self-signed.example.com", verify=False, timeout=5)

④用 retrying 实现自动重试

网络抖动、服务器偶发 5xx、代理临时失效------这些故障往往是暂时的,重试一次就能成功。手写重试逻辑繁琐,retrying 库提供了装饰器方案,一行注解搞定。

pip install retrying

复制代码
import requests
from retrying import retry

# 失败后最多重试 3 次(含首次),仍失败则向上抛出异常
@retry(stop_max_attempt_number=3)
def fetch_page(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                      "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90"
    }
    # 没有 try/except:抛出异常才会触发 retrying 的重试机制
    res = requests.get(url=url, headers=headers, timeout=5)
    res.raise_for_status()  # 4xx/5xx 状态码同样触发重试
    with open("page.html", "wb") as f:
        f.write(res.content)

def main():
    try:
        fetch_page("http://example.com/list/page-1/")
    except Exception as e:
        print(f"3 次重试均失败:{e}")  # 记录日志或标记任务失败

if __name__ == "__main__":
    main()

retrying 的工作原理:被装饰的函数抛出任意异常时,自动重新调用,直到成功或达到最大次数。因此函数内部不应吞掉异常(不要用裸 except pass),否则 retrying 无法感知失败。

⑤retrying 核心参数速查

参数 含义 示例
stop_max_attempt_number 最大尝试总次数(含首次) =3
stop_max_delay 从首次调用起最长等待毫秒数 =10000(10 秒)
wait_fixed 每次重试前固定等待毫秒 =2000(等 2 秒再重试)
wait_random_min / max 随机等待区间(毫秒),模拟人类行为 wait_random_min=1000, wait_random_max=3000
retry_on_exception 传入函数,决定哪些异常触发重试 =lambda e: isinstance(e, Timeout)

⑥组合使用:超时 + 重试 + 代理池联动

三者结合是构建稳健爬虫的标准模式:超时快速识别失效代理,重试自动切换并补偿,代理池及时淘汰失效节点。

复制代码
import requests
from retrying import retry

PROXY_POOL = [
    "http://1.2.3.4:8888",
    "http://5.6.7.8:9999",
]

@retry(stop_max_attempt_number=3, wait_fixed=1000)
def fetch_with_proxy(url, proxy):
    proxies = {"http": proxy, "https": proxy}
    resp = requests.get(url, proxies=proxies, timeout=5)
    resp.raise_for_status()
    return resp.content

def main(url):
    for proxy in PROXY_POOL:
        try:
            content = fetch_with_proxy(url, proxy)
            print(f"成功,代理:{proxy}")
            return content
        except Exception:
            print(f"代理 {proxy} 失效,从池中移除")
            PROXY_POOL.remove(proxy)  # 超时/失败则剔除代理
    print("代理池已耗尽")

if __name__ == "__main__":
    main("http://example.com/data")

✓小结

超时设置 timeout=(3, 10)

SSL 问题 verify=False

自动重试 @retry(次数=3)

代理联动 失效即剔除

超时是爬虫稳定性的最基础保障,重试是应对偶发性网络故障的标准手段,两者结合代理池的动态管理,共同构成生产级爬虫的容错体系。

相关推荐
Caco_D3 天前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
太岁又沐风8 天前
复现并修掉ART hook框架 Pine 调用原方法时的偶发 SIGSEGV
爬虫
隔窗听雨眠9 天前
大模型加爬虫上篇:技术融合与架构革新
爬虫·架构
Super Scraper9 天前
如何批量抓取 TikTok 数据而不被封锁?完整指南
爬虫·ai·自动化·抖音·tiktok·ai agent
深蓝电商API9 天前
自动化录屏 + 截图:打造爬虫调试的上帝视角
爬虫
tang777899 天前
市场调研自动化采集架构:基于住宅IP轮换的APP数据抓取与反风控方案
爬虫·动态代理ip·爬虫代理ip·爬虫动态ip·住宅代理ip·动态住宅ip
数据知道9 天前
指纹浏览器环境的导入、导出、快照与云端同步机制
爬虫·数据采集·指纹浏览器
星川皆无恙9 天前
大数据k-means聚类算法:基于k-means聚类算法+NLP微博舆情数据爬虫可视化分析推荐系统(新版)
大数据·人工智能·爬虫·算法·机器学习·自然语言处理·kmeans
小二·9 天前
Rust 爬虫与数据处理实战:大规模并发抓取 + 流式处理
开发语言·爬虫·rust