金刚石散热越强,管路越先见顶

最近朋友圈被刷屏了------台积电选了金刚石,英伟达也跟进,标题清一色写着「金刚石替代液冷」。

我看完的第一反应是:写这标题的人,大概没算过一道乘法。

金刚石确实猛。热导率 2000 W/m·K,铜的 5 倍,芯片端那一厘米的热阻直接压平。但问题是,热从芯片出来之后呢?还是得靠液冷管路带走。金刚石管的是「出门到路口」,液冷管的是「路口到城外」。两段串联,谁也替代不了谁。

更要命的是:金刚石越好,热越快涌到液冷侧,单相液冷反而越先见顶。

一、先搞懂一件事:热是怎么一层层传出去的

一颗 Vera Rubin GPU,TDP 2300W。这些热量要经过五层才能离开机房:

层级 从→到 核心材料/方案 瓶颈因素
Die → 背面基底 CVD 单晶金刚石(2000+ W/m·K) 材料热导率
基底 → 冷板 TIM + 铜底板 接触热阻
冷板内部 微通道 + 冷却液流动 流道设计
冷板出口 → CDU 管路 + 泵组 流量 × 比热容 × ΔT
CDU → 室外 干冷器 / 冷却塔 环境温度 + 换热面积

金刚石把第①层的热阻压到铜的 1/5。意味着热更快、更集中地涌到第③④层。

类比:你把家门口的路从土路修成高速公路(金刚石),车流量暴增。但城市主干道(液冷管路)没扩容,堵车只会更严重。

二、单相液冷的天花板,一道乘法就够了

液冷系统带走热量的公式非常简单:

Q = ṁ × Cp × ΔT

符号 含义 典型值
Q 带走的热量(kW) 要算的
质量流量(kg/s) 取决于管径、泵功率
Cp 比热容(kJ/kg·°C) 水≈4.18;25%乙二醇≈3.6
ΔT 进出水温差(°C) 设计通常取 10-15°C

代入你的参数算一下

假设你的机柜是标准单相冷板方案:

  • • 供水 45°C,回水 55°C → ΔT = 10°C
  • • 冷却液:25% 丙二醇水溶液,Cp ≈ 3.8 kJ/kg·°C
  • • 单机柜设计流量:25 L/min(常见中高配)

换算:25 L/min ≈ 0.42 kg/s

Q = 0.42 × 3.8 × 10 = 15.96 kW

等等,这也太低了?

没错,这只是单路冷板的值。一个机柜通常有 4-8 路并联冷板(对应 4-8 张 GPU 卡),总流量翻倍。

如果整柜 8 路并联、总流量 150 L/min(2.5 kg/s):

Q = 2.5 × 3.8 × 10 = 95 kW

这就是你这个配置下的物理天花板------不是设备质量问题,是水的比热容和管径限死的。

三、天花板在哪里开始不够用?

场景 单柜热负载 150L/min 能否覆盖 结论
8×H100(700W) ≈56 kW(含其他组件) ✅ 有余量 单相足够
8×GB200(1200W) ≈100 kW ⚠️ 刚好踩线 需要加大流量或管径
8×Vera Rubin(2300W) ≈190 kW ❌ 物理不够 必须换方案

当你想把流量从 150 L/min 加到 300 L/min 来覆盖 190 kW 时,会遇到三堵墙:

    1. 管径:¾" 管在 300 L/min 下流速超 4 m/s,噪音、振动、管路疲劳全来了
    1. 泵功耗:流量翻倍,泵功耗约翻 4 倍(立方关系),PUE 直接恶化
    1. 接头风险:流速越高,密封件磨损越快------还记得上周那篇「一滴冷却液烧掉 2000 万」吗?

结论:单相冷板液冷的实际工程天花板大约在 80-120 kW/柜。 超过这个值,不是不能做,是成本和风险急剧上升。

四、金刚石 + 两相:下一代散热链的完整答案

两相液冷的核心优势不是换了一种液,而是利用了相变潜热

对比项 单相(水/乙二醇) 两相(氟化液蒸发)
带热原理 升温:Q = ṁ×Cp×ΔT 蒸发:Q = ṁ×hfg
同流量带热量 3-5×(取决于工质潜热)
温度均匀性 进出口有梯度 蒸发段近乎等温
200kW/柜所需流量 ≈350 L/min ≈70-120 L/min

当金刚石把芯片端热阻打通,热以更高密度涌到冷板侧,两相液冷用更小的流量就能带走同样的热量------泵更小、管更细、接头更少、漏液风险更低。

以冷泉能控两相冷板方案的实测数据为例:同样 120kW 负载,液路流量仅为单相方案的 1/3,管路接头数减少 40%,系统漏液概率随之大幅下降。

这不是「两相替代单相」,而是:芯片密度越高,金刚石 + 两相的串联组合越有物理必然性。

五、给运维和集成商的选型分界线

不用猜,算就行了。把你的机柜参数代入:

你的情况 推荐路线 原因
单柜 < 80 kW 单相冷板 成熟稳定,TCO 最优
单柜 80-120 kW 单相冷板 + 加粗管径 + 冗余泵 可以做但成本开始上升
单柜 > 120 kW 两相冷板 / 浸没 物理必选,别硬撑单相

一句话:算出你的 Q = ṁ × Cp × ΔT,看够不够。不够就别加泵了------换轨道。


FAQ

Q:金刚石散热这么强,是不是以后不需要液冷了?

A:不是。金刚石解决的是芯片Die到冷板这一段(热导率层面),液冷解决的是冷板之后到室外的带热能力(流量层面)。两者串联,缺一不可。金刚石越好、芯片功耗越大,对液冷系统的流量要求反而越高。

Q:我的机柜现在是 60kW,需要担心单相见顶吗?

A:60kW 在 150 L/min、ΔT=10°C 的标配下有余量(天花板约 95kW)。但如果未来两年内有扩容到 8 卡 GB200 级别的计划(~100kW),建议现在就预留管径升级空间,避免后期改造。

Q:两相液冷成本是不是比单相贵很多?

A:冷板式两相的设备成本约比单相高 15-25%,但在 >100kW 场景下,单相需要更大管径、更多泵组、更高电费来维持流量------总拥有成本(TCO)反而可能更高。分界线大约在 80-120 kW/柜。

Q:公式里的 ΔT 能不能调大,比如做到 20°C?

A:理论上可以,ΔT 加大意味着回水温度升高(比如 45→65°C)。但这会导致冷板表面温度上升,GPU 结温逼近极限,降频风险增加。工程上通常不建议 ΔT 超过 15°C。


相关推荐
摇滚侠1 小时前
Linux CentOS7 rpm 安装 MySQL 5.7
linux·运维·mysql
通信小呆呆1 小时前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
施小赞2 小时前
普通 RAG vs GraphRAG 核心对比
人工智能·ai
EAIReport2 小时前
RuoYi-AI 企业级AI开发平台实战详解
人工智能
大志哥1232 小时前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
HelloWorld__来都来了2 小时前
【每日学术速报】2026-06-15
人工智能·具身智能
霸道流氓气质2 小时前
领域驱动设计(DDD)在 Spring Boot 微服务中的实践指南
运维·spring boot·微服务
H__Rick2 小时前
自动对焦学习-3
人工智能·学习·计算机视觉