AI 服务 Connection Reset by Peer 问题修复

问题描述

现象 :定时任务调用 DashScope AI API 时,请求刚发出即失败,抛出 Connection reset by peer 异常,导致周报生成失败。

错误日志

bash 复制代码
[reactor-http-epoll-1] WARN  r.n.http.client.HttpClientConnect - [bb53674b-2, L:/172.19.0.6:51476 - R:dashscope.aliyuncs.com/39.96.213.166:443] The connection observed an error, the request cannot be retried as the headers/body were sent
io.netty.channel.unix.Errors$NativeIoException: recvAddress(..) failed: Connection reset by peer

[scheduling-1] ERROR c.j.service.component.AIComponent - AI 调用失败: recvAddress(..) failed: Connection reset by peer
org.springframework.web.reactive.function.client.WebClientRequestException: recvAddress(..) failed: Connection reset by peer

根因分析

Reactor Netty 默认使用连接池复用 TCP 连接。定时任务每周只执行一次,连接池中的空闲连接在等待期间已被服务端(DashScope)单方面关闭(TCP Keep-Alive 超时),但客户端未感知。当定时任务触发时,客户端尝试复用该"僵尸连接"发送请求,服务端返回 RST 包,导致 Connection reset by peer

解决方案

1. 连接池优化(根治)

配置 ConnectionProvider,限制空闲连接存活时间,避免复用过期连接:

bash 复制代码
ConnectionProvider connectionProvider = ConnectionProvider.builder("ai-pool")
        .maxConnections(16)
        .maxIdleTime(Duration.ofSeconds(30))      // 空闲超过 30 秒自动关闭
        .maxLifeTime(Duration.ofMinutes(5))       // 连接最长存活 5 分钟
        .evictInBackground(Duration.ofSeconds(30)) // 每 30 秒后台清理过期连接
        .build();

HttpClient httpClient = HttpClient.create(connectionProvider)
        .option(ChannelOption.CONNECT_TIMEOUT_MILLIS, connectTimeout)
        .responseTimeout(Duration.ofMillis(readTimeout));

2. 重试机制(容错)

对网络瞬时故障(WebClientRequestExceptionIOException)自动重试,使用指数退避策略:

bash 复制代码
.retryWhen(Retry.backoff(3, Duration.ofSeconds(2))
        .filter(this::isRetryableError)
        .doBeforeRetry(signal -> log.warn("AI 调用遇到网络错误,第 {} 次重试: {}",
                signal.totalRetries() + 1, signal.failure().getMessage())))

重试判断逻辑:

bash 复制代码
private boolean isRetryableError(Throwable throwable) {
    if (throwable instanceof WebClientRequestException) return true;
    if (throwable instanceof IOException) return true;
    // 检查 cause 链
    Throwable cause = throwable.getCause();
    while (cause != null) {
        if (cause instanceof IOException) return true;
        cause = cause.getCause();
    }
    return false;
}

3. 超时配置调整

AI 请求响应需 2-3 分钟(联网搜索 + 大量数据生成),将 read-timeout 从 120s 提升至 240s:

bash 复制代码
# application-online.yml
dashscope:
  read-timeout: 240000  # 4 分钟,给 2-3 分钟的响应留足余量
相关推荐
拽着尾巴的鱼儿10 分钟前
springboot openfeign 自定义feign 接口重试机制
java·spring boot·后端
Ceelog17 分钟前
久坐党自救指南:屏幕前 8 小时,身体到底在经历什么
前端·后端
XS0301061 小时前
并发编程 六
java·后端
雪宫街道2 小时前
synchronized 锁的范围:对象锁、类锁与代码块锁
java·jvm·后端·面试
XS0301063 小时前
Spring Bean 作用域 & 生命周期
java·后端·spring
彦为君3 小时前
JavaSE-07-异常机制
java·开发语言·后端·python·spring
我是一颗柠檬4 小时前
【MySQL全面教学】MySQL性能优化实战Day13(2026年)
数据库·后端·sql·mysql·性能优化·database
小江的记录本4 小时前
【JVM虚拟机】JVM调优:常用JVM参数、调优核心指标、OOM排查、GC日志分析、Arthas工具使用(附《思维导图》+《面试高频考点清单》)
java·jvm·spring boot·后端·python·spring·面试
程序员cxuan4 小时前
我花了两天时间,终于把 Codex 额度掉太快的问题整明白了!!
人工智能·后端·程序员