一滴冷却液，烧掉2000万算力

Uptime Institute 连续三年把冷却液泄漏列进数据中心非计划停机 Top 5 原因。但你翻遍所有厂商的PPT，不会有任何一页提到这件事。

液冷最怕的不是散热设计不行。最怕的是漏了，你还不知道。

先说一个数：液冷冷板断流后，GPU温度每秒涨3-5°C。

H100的保护逻辑是这样的：离热极限还剩2°C，频率砍半；超极限5°C，硬件直接拉闸（NVIDIA H100 PCIe Board Specification）。正常运行40°C左右，极限87°C。算一下------15秒开始降频，30秒触发保护关机。

Vertiv测过更极端的场景：一台15kW刀片彻底失去流量，60秒进入热关机（Vertiv Cold Plate Leak Detection White Paper）。

这还是最好的情况------"干净地关掉了"。要是液体直接滴到主板上呢？短路是毫秒级的事。OVH巴黎机房2017年就吃过这个亏，冷却管破裂，液体泄入服务器，5000多个网站挂了24小时（DOIT报道）。

记住这个数：60秒。从发现到处置，你的窗口就这么大。

设备先算。一个标准AI液冷柜塞8台H100/H200服务器，单柜算力价值1500-2000万。有个项目的人跟我说，他们一台机器冷板接口裂了条缝，液体渗进去腐蚀了12颗电容，修了80多万------这还算轻伤。

停机再算。行业均值：非计划停机每分钟9000美元，每小时54万美元（Uptime Institute/Forbes 2026）。跑大模型训练的集群更狠------中断一次，checkpoint丢了，可能回滚好几个小时的计算量。那不是停机费，是算力直接蒸发。

最阴的是微泄漏。正压系统里超过65%的泄漏事故，来源是接口松了或者密封件老化了（业疆测控行业报告）。每天漏几滴，蒸发之后就剩点白色盐渍，运维以为是机房灰。等积少成多出事了，整柜报废。

综合算：设备+停机+算力损失，一次严重漏液过千万很正常。

液冷靠不靠谱，不看CDU多漂亮，看接头有多少。

拆一下：CDU到机架歧管、歧管到每台服务器的快速接头（供回水各一对）、服务器里冷板的焊接点。满配一个柜，保守200个潜在泄漏点（OCP Rack Manifold白皮书）。

单个接头的泄漏率标准是10⁻⁴到10⁻⁶ mbar·l/s（INFICON检漏指南），看着很安全。但200个点乘以5年运营时间，概率是指数级累积的。

实际运维还得叠buff：热插拔QD接头会磨损（Dell自己承认UQDB断开时有0.035ml液体残留）、管路常年振动密封件会疲劳、冷却液跑久了腐蚀管壁。行业里有个说法：100柜规模的液冷机房，3年之内出一次漏液的概率超90%。

不是"会不会漏"，是"什么时候漏"。

说了这么多恐怖的，聊聊怎么解决。我的判断：液冷可靠性设计能力，才是这个行业真正的护城河。不是谁CDU做得漂亮，而是谁能让漏液从"灾难"变成"没什么大不了"。

第一道：检测------发现要快

漏液感应线不能只铺地板底下，得沿着歧管、QD接头、冷板出入口一段段部署。流量+压力双监控：流速突降说明管路破了，压力慢慢掉说明某个地方在渗。做到秒级报警、分钟级切断（TI液冷检测应用指南）。

第二道：工质------漏了也不短路

传统水基冷却液为什么可怕？因为导电。泄漏→短路→GPU烧了，整个恐惧链条靠的就是"水会导电"这一个前提。冷泉能控用的是一种特殊的氟化液，电导率趋近于零。漏到主板上也不短路、不腐蚀。把"漏了就炸"变成"漏了没事"，恐惧从根上就没了。

第三道：冗余+规程------系统兜底

CDU做N+1是基本操作。关键是分区隔离，一台服务器的冷却出问题不能把整柜拖下水。负压设计也在推：管路受损吸空气进来而不是往外喷液体。规程上该做的：水质电导率定期测、接头扭矩复检、QD插拔次数记录。不性感，但90%的漏液事故复盘完，都能追到某个被跳过的步骤。

冷泉能控在做的事，就是从工质层面把这个问题彻底兜住------零导电的氟化液让泄漏降级为可控事件，再搭上检测和规程，三道防线完整闭环。

下周聊聊冷却液选型的事------水基和氟化液，成本和安全怎么平衡。

Q：液冷漏液后GPU多久会坏？

A：冷板断流后GPU温度每秒升3-5°C，30-60秒触发热关机。导电液体直接接触主板的话，短路是毫秒级。

Q：液冷机房漏液概率高吗？

A：满配机柜200+个接头，叠加热插拔磨损和密封老化。行业估算100柜规模3年内出一次漏液的概率超90%。

Q：冷泉能控的氟化液为什么不怕漏？

A：电导率趋近于零，泄漏接触电子元器件不会短路、不腐蚀。从工质层面把"漏了就炸"变成"漏了没事"。