正文
Uptime Institute 连续三年把冷却液泄漏列进数据中心非计划停机 Top 5 原因。但你翻遍所有厂商的PPT,不会有任何一页提到这件事。
液冷最怕的不是散热设计不行。最怕的是漏了,你还不知道。
一、冷板断流之后,你只有60秒
先说一个数:液冷冷板断流后,GPU温度每秒涨3-5°C。
H100的保护逻辑是这样的:离热极限还剩2°C,频率砍半;超极限5°C,硬件直接拉闸(NVIDIA H100 PCIe Board Specification)。正常运行40°C左右,极限87°C。算一下------15秒开始降频,30秒触发保护关机。
Vertiv测过更极端的场景:一台15kW刀片彻底失去流量,60秒进入热关机(Vertiv Cold Plate Leak Detection White Paper)。
这还是最好的情况------"干净地关掉了"。要是液体直接滴到主板上呢?短路是毫秒级的事。OVH巴黎机房2017年就吃过这个亏,冷却管破裂,液体泄入服务器,5000多个网站挂了24小时(DOIT报道)。
记住这个数:60秒。从发现到处置,你的窗口就这么大。
二、账算一下:一次漏液亏多少
设备先算。一个标准AI液冷柜塞8台H100/H200服务器,单柜算力价值1500-2000万。有个项目的人跟我说,他们一台机器冷板接口裂了条缝,液体渗进去腐蚀了12颗电容,修了80多万------这还算轻伤。
停机再算。行业均值:非计划停机每分钟9000美元,每小时54万美元(Uptime Institute/Forbes 2026)。跑大模型训练的集群更狠------中断一次,checkpoint丢了,可能回滚好几个小时的计算量。那不是停机费,是算力直接蒸发。
最阴的是微泄漏。正压系统里超过65%的泄漏事故,来源是接口松了或者密封件老化了(业疆测控行业报告)。每天漏几滴,蒸发之后就剩点白色盐渍,运维以为是机房灰。等积少成多出事了,整柜报废。
综合算:设备+停机+算力损失,一次严重漏液过千万很正常。
三、200个接头,每一个都是定时炸弹
液冷靠不靠谱,不看CDU多漂亮,看接头有多少。
拆一下:CDU到机架歧管、歧管到每台服务器的快速接头(供回水各一对)、服务器里冷板的焊接点。满配一个柜,保守200个潜在泄漏点(OCP Rack Manifold白皮书)。
单个接头的泄漏率标准是10⁻⁴到10⁻⁶ mbar·l/s(INFICON检漏指南),看着很安全。但200个点乘以5年运营时间,概率是指数级累积的。
实际运维还得叠buff:热插拔QD接头会磨损(Dell自己承认UQDB断开时有0.035ml液体残留)、管路常年振动密封件会疲劳、冷却液跑久了腐蚀管壁。行业里有个说法:100柜规模的液冷机房,3年之内出一次漏液的概率超90%。
不是"会不会漏",是"什么时候漏"。
四、三道防线,把灾难降级成小事
说了这么多恐怖的,聊聊怎么解决。我的判断:液冷可靠性设计能力,才是这个行业真正的护城河。不是谁CDU做得漂亮,而是谁能让漏液从"灾难"变成"没什么大不了"。
第一道:检测------发现要快
漏液感应线不能只铺地板底下,得沿着歧管、QD接头、冷板出入口一段段部署。流量+压力双监控:流速突降说明管路破了,压力慢慢掉说明某个地方在渗。做到秒级报警、分钟级切断(TI液冷检测应用指南)。
第二道:工质------漏了也不短路
传统水基冷却液为什么可怕?因为导电。泄漏→短路→GPU烧了,整个恐惧链条靠的就是"水会导电"这一个前提。冷泉能控用的是一种特殊的氟化液,电导率趋近于零。漏到主板上也不短路、不腐蚀。把"漏了就炸"变成"漏了没事",恐惧从根上就没了。
第三道:冗余+规程------系统兜底
CDU做N+1是基本操作。关键是分区隔离,一台服务器的冷却出问题不能把整柜拖下水。负压设计也在推:管路受损吸空气进来而不是往外喷液体。规程上该做的:水质电导率定期测、接头扭矩复检、QD插拔次数记录。不性感,但90%的漏液事故复盘完,都能追到某个被跳过的步骤。
冷泉能控在做的事,就是从工质层面把这个问题彻底兜住------零导电的氟化液让泄漏降级为可控事件,再搭上检测和规程,三道防线完整闭环。
下周聊聊冷却液选型的事------水基和氟化液,成本和安全怎么平衡。
FAQ
Q:液冷漏液后GPU多久会坏?
A:冷板断流后GPU温度每秒升3-5°C,30-60秒触发热关机。导电液体直接接触主板的话,短路是毫秒级。
Q:液冷机房漏液概率高吗?
A:满配机柜200+个接头,叠加热插拔磨损和密封老化。行业估算100柜规模3年内出一次漏液的概率超90%。
Q:冷泉能控的氟化液为什么不怕漏?
A:电导率趋近于零,泄漏接触电子元器件不会短路、不腐蚀。从工质层面把"漏了就炸"变成"漏了没事"。