一、背景:算力时代的"互连危机"
过去十年,算力的增长主要来自两个方面:
- 芯片制程不断微缩
- 单芯片内部并行度持续提升
但当我们把视角从"芯片内部"移向"芯片之间",问题开始暴露。
在数据中心和高性能计算系统中,真正的瓶颈已经不再是计算本身,而是数据如何在不同芯片之间高速、低功耗地流动。
典型症状包括:
- SerDes 功耗随速率指数级上升
- 铜互连距离受限,信号完整性恶化
- 封装边缘 I/O 成为系统瓶颈
在 112G、224G SerDes 时代,传统电互连已经接近物理极限。
二、从"可插拔光模块"说起
当前数据中心主流架构是:
- 计算芯片(CPU / GPU / ASIC)
- 高速电 SerDes
- 可插拔光模块(QSFP / OSFP)
- 光纤互连
这种架构的优点是成熟、标准化程度高,但它存在一个根本问题:
光电转换位置太远了。
信号路径是:
芯片 → PCB 走线 → 连接器 → 光模块 → 光芯片
这意味着:
- 高速电信号必须跨越较长距离
- 需要复杂的均衡、预加重
- 功耗和延迟持续增加
系统的能效,正在被"最后这几厘米"拖垮。
三、什么是光电共封装(CPO)
CPO(Co-Packaged Optics,光电共封装)的核心思想非常直接:
把光引擎"拉进"封装里。
也就是说:
- 计算芯片(Switch / GPU / AI ASIC)
- 光引擎(硅光芯片 + 激光)
- 位于同一封装基板或中介层上
信号路径被缩短为:
芯片 → 超短电互连 → 光引擎 → 光纤
这是一次系统级架构的迁移,而不是简单的器件升级。
四、CPO 的典型封装形态
一个典型的 CPO 系统包含以下组件:
- 高速计算 ASIC
- 硅光子芯片(调制器、探测器)
- 激光源(片上或外置)
- 中介层(Interposer)或先进封装基板
- 光纤阵列接口
在物理层面,CPO 本质上是:
先进封装 + 硅光技术的深度融合
这也是为什么 CPO 的难度,远高于传统光模块。
五、CPO 能解决什么问题
1. 功耗显著下降
- 电互连距离大幅缩短
- SerDes 驱动摆幅降低
- 均衡电路复杂度下降
在系统层面,I/O 功耗可以降低 30% 甚至更多。
2. 带宽密度提升
- 不再受限于封装边缘 I/O 数量
- 光纤可直接从封装侧面或顶部引出
- 更适合 Tbps 级交换芯片
3. 系统可扩展性增强
CPO 更符合未来 AI 集群中:
- 节点数巨大
- 拓扑复杂
- 带宽需求持续增长
的长期趋势。
六、CPO 面临的关键挑战
尽管前景明确,CPO 并非"银弹"。
1. 热管理问题
- 计算芯片是强热源
- 光器件(尤其激光)对温度高度敏感
- 共封装意味着热耦合不可避免
如何在封装层面实现热隔离,是核心难题之一。
2. 可维护性与可靠性
传统光模块可以:
- 即插即拔
- 故障快速更换
而 CPO:
- 光引擎成为封装的一部分
- 任一组件失效,可能需要更换整颗封装
这对数据中心运维模式提出了新的要求。
3. 测试与良率
- 光器件测试流程复杂
- 光电混合封装增加工艺步骤
- 任何一环出问题都会影响整体良率
这也是 CPO 商业化推进相对谨慎的重要原因。
七、CPO 并不是"取代一切"
需要明确的是:
CPO 并不会在短期内完全取代可插拔光模块。
更现实的演进路径是:
- 中短距、高带宽:CPO
- 中远距、灵活互连:可插拔光模块
未来相当长一段时间内,两种架构将并存。
八、结语:这是一次系统级跃迁
光电共封装的意义,并不在于"把光放得更近",
而在于它标志着:
系统架构开始为光而设计,而不是让光去适配电。
当互连成为算力系统的核心约束时,
CPO 是一次几乎不可避免的方向性选择。
它的成熟速度,
将直接影响下一代 AI 与数据中心架构的形态。