爬虫访问第三方 HTTPS 网站时遇到的 SSL 异常处理

在日常开发中，我们经常需要通过爬虫或自动化脚本访问一些第三方网站，模拟点击、查询数据或抓取页面内容。然而，在 .NET Core 项目中通过 HttpClient 访问某些 HTTPS 网站时，偶尔会遇到如下错误：

复制代码

System.Net.Http.HttpRequestException: The SSL connection could not be established, see inner exception.
---> System.IO.IOException: Received an unexpected EOF or 0 bytes from the transport stream.

这类问题往往表现为偶发性，有时可以正常访问，有时则抛出 SSL 握手异常。本文结合排查过程，总结可能的原因和常见的解决思路。

一、问题原因分析

从异常堆栈可以看出，问题发生在 SSL/TLS 握手阶段，远端服务器突然断开了连接。常见原因包括：

TLS 协议版本不匹配
- 某些网站只支持 TLS 1.2/1.3，如果客户端尝试使用 TLS1.0/1.1，服务器会直接中断连接。
SNI/证书校验问题
- HTTPS 握手依赖 SNI(Server Name Indication)。如果直接用 IP 地址访问，而不是域名，证书校验很可能失败，从而被拒绝。
连接池中复用的旧连接失效
- .NET Core 默认使用连接池。部分网站会在空闲时主动关闭连接，导致下次复用旧连接时握手失败。
网站防爬或限流机制
- 一些网站会针对高频请求或特定客户端（如非浏览器 UA）实施防护，在 SSL 握手阶段直接中断。

二、解决方案

针对上述问题，可以从以下几个方面优化：

1. 强制指定 TLS 版本

在应用启动时显式声明支持的 TLS 协议：

复制代码

ServicePointManager.SecurityProtocol = SecurityProtocolType.Tls12 | SecurityProtocolType.Tls13;

如果使用 SocketsHttpHandler：

复制代码

var handler = new SocketsHttpHandler
{
    SslOptions = new SslClientAuthenticationOptions
    {
        EnabledSslProtocols = SslProtocols.Tls12 | SslProtocols.Tls13
    }
};
var client = new HttpClient(handler);

2. 避免使用 IP 直连

确保通过域名发起请求，而不是直接访问 IP。这样才能正确完成 SNI 与证书验证。

3. 增加重试机制

针对偶发 EOF，可以加入重试逻辑：

复制代码

for (int i = 0; i < 3; i++)
{
    try
    {
        var response = await client.GetAsync(url);
        if (response.IsSuccessStatusCode)
            return await response.Content.ReadAsStringAsync();
    }
    catch (HttpRequestException ex) when (ex.InnerException is IOException)
    {
        await Task.Delay(1000); // 等待后重试
    }
}

4. 优化连接池配置

避免复用失效的长连接，可以调整 PooledConnectionLifetime：

复制代码

var handler = new HttpClientHandler
{
    PooledConnectionLifetime = TimeSpan.FromSeconds(30), 
    PooledConnectionIdleTimeout = TimeSpan.FromSeconds(15)
};
var client = new HttpClient(handler);

5. 模拟浏览器行为

部分网站可能有防爬策略，建议补充请求头：

复制代码

client.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 ...");

必要时可带上 Cookie、Referer 等信息，模拟真实浏览器访问。

三、总结

在 .NET Core 项目中访问第三方 HTTPS 网站时，偶发的 SSL 握手错误通常不是代码 bug，而是由 TLS 版本、证书校验、连接池复用或网站防护策略导致的。

实践中建议遵循以下步骤：

确保使用域名而不是 IP；
显式指定 TLS1.2/1.3；
合理配置 HttpClientHandler 避免复用无效连接；
加入 重试机制；
必要时模拟 浏览器请求，避免被防爬拦截。

通过以上方法，可以显著降低 SSL 异常的发生概率，提高爬虫任务的稳定性。