封装与互连，比制程更重要的半导体突围战

华为何庭波署名文章指出：当制程逼近物理极限，先进封装与互连技术正成为提升算力的新引擎。这不仅是技术路线的调整，更是一场系统级架构创新的革命。

2026年，华为半导体负责人何庭波发表署名文章，提出了一个引发业界深思的观点："先进封装和互连变得比制程节点本身更为重要。" 这句话背后，是摩尔定律放缓的严酷现实------芯片制程从7nm向5nm、3nm乃至更先进节点演进时，性能翻倍的成本和时间不再成比例下降。相反，晶体管微缩带来的红利正被日益严重的互连延迟、功耗泄漏和设计复杂度所侵蚀。

当"堆晶体管"的路越走越窄，产业界开始将目光转向"系统级集成"------通过先进封装将多个芯粒（Chiplet）组合成一个强大的整体，用互连技术替代部分制程微缩。本文将深入剖析这一转变的技术背景，解读Chiplet、2.5D/3D封装、HBM、UCIe等关键技术，并从中国视角探讨在先进制程受限的背景下，如何通过封装和系统架构实现算力的弯道超车。

一、摩尔定律放缓：为什么制程不再"万能"？

1.1 物理极限与暗硅效应

摩尔定律预测，芯片上的晶体管数量每18-24个月翻一番。但到了5nm及以下节点，量子隧穿效应、漏电流和热密度问题使得继续微缩变得极其困难。即使台积电、三星宣称进入2nm乃至1nm节点，实际的性能增益与功耗改善已远不如从前。

暗硅效应（Dark Silicon）成为突出问题：由于功耗密度过高，芯片上大部分晶体管不能同时工作，否则会超出散热极限。这意味着，即使塞进更多晶体管，实际可用的并行计算能力受到严格限制。制程越先进，暗硅面积占比越高，投资的边际收益急剧下降。

1.2 互连延迟成为主要瓶颈

传统观点认为，计算是芯片的主要功耗和延迟来源。但随着制程微缩，晶体管开关速度越来越快，芯片内部的互连线反而成为瓶颈。信号在金属线中传输的速度受限于电阻电容延迟（RC delay），无法随晶体管等比例加速。在先进工艺中，跨芯片的全局信号传输可能需要多个时钟周期。

更糟糕的是，芯片内部不同功能模块（CPU核、缓存、I/O）对制程的需求不同。逻辑电路需要先进制程以提高密度和速度，而I/O和模拟电路更适合成熟制程以获得更好的电压耐受和信噪比。若将所有模块统一用先进制程制造，不仅成本高昂，且性能未必最优。

因此，产业界逐渐形成共识：不应再将整个系统集成在一颗单片芯片上，而是拆分成多个芯粒，每个芯粒采用最合适的制程，再通过先进封装将它们互连。这就是Chiplet理念的由来。

二、关键方案：Chiplet、先进封装与互连标准

2.1 Chiplet：化整为零，再聚零为整

Chiplet（芯粒，也称小芯片）设计将一个复杂的片上系统（SoC）分解成多个较小、功能明确的模块化芯片。例如，CPU核心可以单独做在一个芯粒上，I/O控制、内存控制器、GPU各占一个芯粒。每个芯粒可以选择最适合其功能的制程------CPU逻辑用3nm，I/O用12nm，模拟电路用28nm。

优势：

降低成本：只有需要高性能的部分用先进制程，其余用成熟制程，避免整颗芯片都采用昂贵的先进节点。
提高良率：小面积的芯粒良率远高于大面积的单片芯片。例如，一个800mm²的单片芯片良率可能只有30%，而分解成四个200mm²的芯粒，每个良率可达80%，整体有效成本大幅下降。
灵活组合：芯粒可以像乐高积木一样，根据市场需求快速组合出不同产品。AMD的Ryzen处理器便采用CPU芯粒与I/O芯粒分离的设计，同一组CPU芯粒既可组合成8核桌面版，也可组合成64核服务器版。

2.2 2.5D/3D封装：让芯粒"面对面"通信

芯粒之间如何高效连接？传统封装中，芯粒通过PCB板上的走线连接，带宽低、延迟高、功耗大。先进封装将互连提升到全新的密度和能效水平。

2.5D封装 ：在芯粒和基板之间插入一层硅中介层（Silicon Interposer）。中介层上刻有微米级的金属线，可以高密度连接多个芯粒。多个芯粒放置在中介层上，彼此之间通过中介层的微凸块（Micro-bump）和重布线层（RDL）通信。代表技术包括台积电的CoWoS（Chip-on-Wafer-on-Substrate）和三星的I-Cube。

3D封装 ：更进一步，直接将芯粒垂直堆叠，通过硅通孔（TSV，Through-Silicon Via）贯穿芯片本体，实现上下层之间的直接连接。3D封装的互连密度比2.5D高一个数量级，延迟极低，尤其适合内存与逻辑芯片的堆叠。例如，将HBM（高带宽内存）堆叠在CPU/GPU旁边，大幅缩短数据路径。

混合键合（Hybrid Bonding）：这是3D封装的前沿技术，无需凸块，利用铜对铜的直接扩散连接，实现亚微米级间距的互连，密度可达每平方毫米数十万连接点。台积电的SoIC（System on Integrated Chips）和英特尔的Foveros Direct均采用混合键合。

2.3 高带宽内存（HBM）：封装技术创新催生的产品

HBM是先进封装的典型案例。它将多个DRAM裸晶垂直堆叠，通过TSV和微凸块互连，然后与GPU/CPU放置在同一个硅中介层上。相比传统DDR/GDDR，HBM的带宽提升数倍，功耗降低，且占用面积小。如今，每一款顶级AI加速器（NVIDIA H100、AMD MI300、华为昇腾）都标配HBM。

HBM的成功证明：内存带宽瓶颈无法单纯靠制程微缩解决，必须依靠封装架构创新。

2.4 开放互连标准：UCIe

为了推动Chiplet生态的普及，产业界需要一套统一的互连标准，使得不同厂商制造的芯粒可以无缝混合使用。2022年，英特尔、AMD、Arm、台积电、三星等巨头联合推出了UCIe（Universal Chiplet Interconnect Express）。

UCIe定义了芯粒之间的物理层、协议层和链路层，支持每毫米带宽高达数百Gbps，且延迟极低。它兼容PCIe和CXL等高层协议，使得芯粒可以像插槽上的板卡一样标准化。有了UCIe，未来的计算机可能像组装PC一样，从不同供应商处采购CPU芯粒、AI加速芯粒、I/O芯粒，然后在一个封装内集成。

三、中国视角：以封装和系统架构弥补制程短板

对于中国半导体产业，何庭波的观点具有特殊意义。在先进制程受到外部限制的背景下，无法获得EUV光刻机、无法代工5nm以下芯片的现状短期内难以改变。但Chiplet和先进封装提供了一个重要的替代路径------用系统级集成弥补单点制程的落后。

3.1 "成熟制程+先进封装"的可能

假设我们只能量产14nm甚至28nm的芯片，而国际竞争对手用3nm。单片3nm芯片的性能可能远超14nm。但是，若将系统功能拆分，用多个14nm芯粒通过先进封装组合，或许能接近甚至超越单片3nm的性能。

例如，将计算单元拆解成多个14nm芯粒并行工作，通过高密度互连实现协同。虽然在单核频率和面积效率上有差距，但可以通过芯粒堆叠、增大总硅面积来换取整体性能。这类似于用多个中等性能的发动机并联，推出一台强大的赛车------散热和功耗是挑战，但并非不可克服。

3.2 国产先进封装能力

中国大陆在先进封装领域的布局已有一定基础。长电科技、通富微电等封测厂商具备2.5D/3D封装能力，并积极开发TSV、混合键合等技术。华为自身的芯片部门也在探索Chiplet设计，其昇腾AI加速器便使用了HBM和Chiplet架构。

此外，国内也在推动自己的Chiplet互连标准，如CCITA（中国Chiplet产业联盟）提出的标准，意在降低对UCIe的依赖，保障供应链安全。

3.3 系统架构创新的机遇

封装和互连的进步不仅仅是硬件层面的，它还要求系统架构师重新思考计算范式。例如，传统的冯·诺依曼架构中，CPU和内存分离，数据搬移开销大。借助3D封装，可以将计算逻辑和存储器垂直堆叠，实现存算一体，大幅减少数据移动。这种架构无需最先进的制程，却能带来数量级的能效提升。

同样，对于大规模并行计算任务（如AI推理），可以通过先进封装集成大量小型计算芯粒，利用片上网络（NoC）和高带宽互连构建类似"大脑皮层"的结构。这种思路正是中国学者和企业可以充分发挥创造力的领域------既然在单点制程上无法短期超越，就在系统级架构上寻求差异化竞争。

四、结论：系统级创新的黄金时代

何庭波的文章不是预言，而是正在发生的现实。当摩尔定律的脚步放缓，我们不再能单纯依赖制程微缩来获得免费的性能提升。先进封装与互连技术，以及在此基础上构建的Chiplet和系统级架构，成为延续计算性能增长的新引擎。

对于全球半导体产业，这是一场深刻的范式转移------从"把更多晶体管塞进一颗芯片"变为"把更多芯粒智慧地组装在一起"。对于中国半导体，这既是挑战也是机遇：在制程受限的条件下，通过封装和系统架构创新，完全有可能走出自己的技术道路。

封装与互连，不再是芯片制造的后道工序，而是决定竞争力的主战场。正如一位行业领袖所言："未来，谁掌握了封装，谁就掌握了算力。" 而这场战役，才刚刚打响。