如此狗血的TCP close_wait

大家好,我是「云舒编程」,今天我们来聊聊最近遇到的线上出现大量close_wait导致服务不可用的问题。

文章首发于微信公众号:云舒编程

关注公众号获取: 1、大厂项目分享 2、各种技术原理分享 3、部门内推

一、问题

     服务A调用服务B,在服务A的机器上出现了大量的close_wait状态的TCP连接。

二、closed_wait

     根据TCP四次挥手,理论上close_wait是一个非常短暂的状态,对应到下图:当服务端接收到客户端的FIN并且回复ACK后服务端就会进入close_wait。然后该服务端继续发送FIN包后就会继续进入后续的流程,最终会正常关闭TCP连接。

     如果服务端出现了大量的close_wait那就证明没有进行正常的TCP关闭,也就是服务端最终没有调用close或者shutdown,导致最后一个FIN没有发出去。

IP异常

通过排查发现服务A处于closed_wait状态的对应的服务B的IP 都已经不在对方的服务列表中了。

同时同事反馈前天进行了一次压测,触发了下游的自动扩缩容。拿着这些IP跟运维确定,发现的确是前天扩容后又缩容了的IP。

三、分析

出现大量closed_wait的条件:

  1. 大量的短TCP链接
  2. 未正确关闭TCP(close或者shutdown)

前天压测满足了条件一,那就只剩下条件二了。

由于服务使用了连接池,猜测是不是这里导致的问题。连接池大致逻辑如下:

golang 复制代码
type ConnPool struct{
    poolName string
    connsMap map[string][]*net.Conn //key是对端ip+port,value是连接池列表
}

func (cli *TcpClient) doSend(ctx context.Context,sendByte []byte)([]byte,error){
    pool := getPool(TCP_POOL_NAME)

    //根据IP,PORT 分配conn ip port从服务注册中心获取
    conn := pool.Alloc(cli.ip,cli.port)

    //放回连接池
    defer pool.Put(conn)

    conn.Write()

    conn.Read()

    return 
}

发现该连接池的管理比较坑,使用被调用方的ip+port作为key进行存储。如果对方的服务下线了,那么从服务注册中心就再也无法获取该ip了,其对应的TCP连接就再也无法释放,并且未对连接做探活处理,从而导致TCP状态会永远停留在closed_wait状态。

以前为什么没有出现

     按照上述的连接池实现,只要下游的IP出现了变化,那么理论上我们的服务就会出现无法释放的closed_wait状态的连接才对。那这个问题应该早就暴露了才对?

     通过排查就发现了极其狗血的事情:下游服务的发布窗口在每周四的下午,我们的服务发布是在每周五的下午。通过狗血的发布窗口就把这个事情给自然解决了。

问题解决

  1. TCP连接设置keepalive
  2. 单独使用一个协程定时去检测连接是否可用
    • 读取到了io.EOF,这种就说明对端(服务端)关闭了这个连接,该连接可以释放了。
    • 拿ip、port 询问注册中心是否可用,不可用则关闭。

推荐阅读

1、原来阿里字节员工简历长这样

2、一条SQL差点引发离职

3、MySQL并发插入导致死锁

相关推荐
Raink老师3 小时前
【AI面试临阵磨枪-79】实时数据 RAG:订单、商家、物流、天气、动态库存
人工智能·面试·职场和发展
Cosolar3 小时前
Chroma向量库面试学习指南
数据库·人工智能·面试·职场和发展·数据库架构
小江的记录本5 小时前
【JVM虚拟机】垃圾回收GC:垃圾收集器:CMS:核心原理、回收流程、优缺点、废弃原因(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·面试·maven
小江的记录本7 小时前
【JVM虚拟机】垃圾回收GC:垃圾回收算法:标记-清除、标记-复制、标记-整理、分代收集(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·算法·安全·面试
小江的记录本7 小时前
【JVM虚拟机】垃圾回收GC:垃圾收集器:G1:Region分区、Mixed GC、回收流程、适用场景(高频)(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·spring cloud·面试
云登指纹浏览器8 小时前
静态IP和动态IP哪个好:跨境电商代理选型指南
网络·网络协议·tcp/ip
Mahir0810 小时前
MyBatis 深度解密:从执行流程到底层原理全解
java·后端·面试·mybatis
罗超驿10 小时前
9.LeetCode 209. 长度最小的子数组 | 滑动窗口专题详解
java·算法·leetcode·面试
折哥的程序人生 · 物流技术专研11 小时前
《Java 100 天进阶之路》第35篇:Java异常处理最佳实践
java·开发语言·后端·面试·求职招聘
哈撒Ki11 小时前
前端性能优化汇总
前端·面试