一滴冷却液,烧掉2000万算力

正文

Uptime Institute 连续三年把冷却液泄漏列进数据中心非计划停机 Top 5 原因。但你翻遍所有厂商的PPT,不会有任何一页提到这件事。

液冷最怕的不是散热设计不行。最怕的是漏了,你还不知道。

一、冷板断流之后,你只有60秒

先说一个数:液冷冷板断流后,GPU温度每秒涨3-5°C。

H100的保护逻辑是这样的:离热极限还剩2°C,频率砍半;超极限5°C,硬件直接拉闸(NVIDIA H100 PCIe Board Specification)。正常运行40°C左右,极限87°C。算一下------15秒开始降频,30秒触发保护关机。

Vertiv测过更极端的场景:一台15kW刀片彻底失去流量,60秒进入热关机(Vertiv Cold Plate Leak Detection White Paper)。

这还是最好的情况------"干净地关掉了"。要是液体直接滴到主板上呢?短路是毫秒级的事。OVH巴黎机房2017年就吃过这个亏,冷却管破裂,液体泄入服务器,5000多个网站挂了24小时(DOIT报道)。

记住这个数:60秒。从发现到处置,你的窗口就这么大。

二、账算一下:一次漏液亏多少

设备先算。一个标准AI液冷柜塞8台H100/H200服务器,单柜算力价值1500-2000万。有个项目的人跟我说,他们一台机器冷板接口裂了条缝,液体渗进去腐蚀了12颗电容,修了80多万------这还算轻伤。

停机再算。行业均值:非计划停机每分钟9000美元,每小时54万美元(Uptime Institute/Forbes 2026)。跑大模型训练的集群更狠------中断一次,checkpoint丢了,可能回滚好几个小时的计算量。那不是停机费,是算力直接蒸发。

最阴的是微泄漏。正压系统里超过65%的泄漏事故,来源是接口松了或者密封件老化了(业疆测控行业报告)。每天漏几滴,蒸发之后就剩点白色盐渍,运维以为是机房灰。等积少成多出事了,整柜报废。

综合算:设备+停机+算力损失,一次严重漏液过千万很正常。

三、200个接头,每一个都是定时炸弹

液冷靠不靠谱,不看CDU多漂亮,看接头有多少。

拆一下:CDU到机架歧管、歧管到每台服务器的快速接头(供回水各一对)、服务器里冷板的焊接点。满配一个柜,保守200个潜在泄漏点(OCP Rack Manifold白皮书)。

单个接头的泄漏率标准是10⁻⁴到10⁻⁶ mbar·l/s(INFICON检漏指南),看着很安全。但200个点乘以5年运营时间,概率是指数级累积的。

实际运维还得叠buff:热插拔QD接头会磨损(Dell自己承认UQDB断开时有0.035ml液体残留)、管路常年振动密封件会疲劳、冷却液跑久了腐蚀管壁。行业里有个说法:100柜规模的液冷机房,3年之内出一次漏液的概率超90%。

不是"会不会漏",是"什么时候漏"。

四、三道防线,把灾难降级成小事

说了这么多恐怖的,聊聊怎么解决。我的判断:液冷可靠性设计能力,才是这个行业真正的护城河。不是谁CDU做得漂亮,而是谁能让漏液从"灾难"变成"没什么大不了"。

第一道:检测------发现要快

漏液感应线不能只铺地板底下,得沿着歧管、QD接头、冷板出入口一段段部署。流量+压力双监控:流速突降说明管路破了,压力慢慢掉说明某个地方在渗。做到秒级报警、分钟级切断(TI液冷检测应用指南)。

第二道:工质------漏了也不短路

传统水基冷却液为什么可怕?因为导电。泄漏→短路→GPU烧了,整个恐惧链条靠的就是"水会导电"这一个前提。冷泉能控用的是一种特殊的氟化液,电导率趋近于零。漏到主板上也不短路、不腐蚀。把"漏了就炸"变成"漏了没事",恐惧从根上就没了。

第三道:冗余+规程------系统兜底

CDU做N+1是基本操作。关键是分区隔离,一台服务器的冷却出问题不能把整柜拖下水。负压设计也在推:管路受损吸空气进来而不是往外喷液体。规程上该做的:水质电导率定期测、接头扭矩复检、QD插拔次数记录。不性感,但90%的漏液事故复盘完,都能追到某个被跳过的步骤。

冷泉能控在做的事,就是从工质层面把这个问题彻底兜住------零导电的氟化液让泄漏降级为可控事件,再搭上检测和规程,三道防线完整闭环。


下周聊聊冷却液选型的事------水基和氟化液,成本和安全怎么平衡。


FAQ

Q:液冷漏液后GPU多久会坏?

A:冷板断流后GPU温度每秒升3-5°C,30-60秒触发热关机。导电液体直接接触主板的话,短路是毫秒级。

Q:液冷机房漏液概率高吗?

A:满配机柜200+个接头,叠加热插拔磨损和密封老化。行业估算100柜规模3年内出一次漏液的概率超90%。

Q:冷泉能控的氟化液为什么不怕漏?

A:电导率趋近于零,泄漏接触电子元器件不会短路、不腐蚀。从工质层面把"漏了就炸"变成"漏了没事"。


相关推荐
日取其半万世不竭1 小时前
Palworld《幻兽帕鲁》 服务器搜不到怎么办?端口和防火墙排查清单
运维·服务器
xhtdj1 小时前
DuckDB Quack基于 HTTP的客户端 / 服务器协议面向多用户分析
服务器·网络协议·http
日取其半万世不竭1 小时前
Rust《腐蚀》 服务器低成本怎么开?配置、端口和存档避坑
服务器·开发语言·rust
YangYang9YangYan1 小时前
民办本科大数据专业学习数据分析的价值分析
大数据·学习·数据分析
qq_366566502 小时前
内容出海工具链搭建实战:从0到CI/CD自动化
运维·ci/cd·自动化
醒醒该学习了!2 小时前
人工智能的核心算法基础(理论篇)
人工智能
一切皆是因缘际会2 小时前
量化阈值拆解|2026端侧AI复盘
人工智能·架构·系统架构
圣殿骑士-Khtangc2 小时前
LLM 推理加速全攻略:vLLM、TensorRT-LLM 与量化技术实战
人工智能
meilindehuzi_a2 小时前
全栈进阶:告别 Node 繁琐配置,用下一代运行时 Bun 丝滑构建 AI Agent 客户端
人工智能·llm