①核心贡献
- 传统残差连接的pre-Norm深层容易出现表示崩溃,Post-Norm重新引入梯度消失风险,训练难度大
- mhc用来解决这样的问题,并且在豆包团队的HC基础是进行迭代
传统残差连接 (ResNet 用了 10 年的技术)是单车道公路:信息只能沿着一条路走,容易堵车(梯度消失)或撞车(表示崩溃)。
HC (Hyper-Connections)把单车道扩成了多车道立交桥,信息吞吐暴涨,表达能力提升,但副作用也来了:
- 连接矩阵 "自由生长",破坏了残差连接的恒等映射属性(信号无损传递的核心)
- 信号被随意放大(27B 模型中最大增益达 3000 倍),导致梯度爆炸、训练崩溃
- 多车道带来巨大显存开销,工程落地困难
mHC 的思路很简单:路照修,但给每个路口配个 "数学交警",让多车道交通既高效又安全。
mHC 用"流内残差混合矩阵的流形约束(manifold constraint)"恢复 residual 的恒等映射稳定性,同时用一整套 kernel/重算/通信重叠优化把系统开销压下来,使得"扩展残差拓扑"这条路能在大规模预训练中稳定、可扩展。
② mHC 的关键机制:把 H^{res} 投影到一个"稳定的流形"上
- 论文把 H^{res} 约束到 Birkhoff polytope(双随机矩阵集合):矩阵元素非负,且每行每列都求和是1,好处:
-
- 双随机矩阵的谱范数有界,因此不会把信号/梯度无限放大,直接解决爆炸问题
- 双随机矩阵相乘仍是双随机矩阵,是一个复合的闭包, 等价于把"identity mapping 的稳定性"推广到更一般的"守恒混合"
- 几何解释清晰:Birkhoff polytope 是置换矩阵的凸包,所以这种残差混合可以理解为"对多种置换的凸组合",反复应用会逐渐增强跨流信息融合,但依然受控
- 如何进行投影 ?--先自由,后约束。先让模型学习一个无约束的矩阵,再用高效的投影算法和约束把它 "拉回" 双随机流形上,这是工程与数学的完美折中
③科学证明 :如何证明 mHC "更稳 + 更好 + 可扩展"?
- 稳定性: loss 与梯度范数
-
- 对 27B 预训练:HC 会出现 loss 异常上冲、梯度范数不稳定;mHC 的 loss/梯度曲线更像 baseline(稳定),并且最终训练 loss 相对 baseline 有明显下降
- 机制验证:
- 下游能力:Benchmark
-
- 8 个下游任务(如 BBH、DROP、GSM8K、HellaSwag、MATH、MMLU、PIQA、TriviaQA)对比 baseline/HC/mHC:总体上 mHC > baseline ,且在多数任务上 mHC ≥ HC,并强调在推理类任务(如 BBH、DROP)相对 HC 仍有增益
- Scaling:
-
- compute scaling:在 3B / 9B / 27B(数据按参数比例)上画 compute scaling 曲线,mHC 的相对优势在更大算力下仍能保持,只是轻微衰减。
- token scaling:固定 3B,训练过程中不同 token 位置的 loss 轨迹,mHC 同样稳定优于 baseline。
这部分的科学意义是:它不只是"某个点有效",而是展示了"优势随规模扩展仍成立"
④系统工程
最主要是在仅增加6.7%开销的情况下,解决了HC的内存墙的问题
- 优化 1:Kernel Fusion(算子融合 + 混合精度)--减少内存读写
- 优化 2:Recomputing(选择性重算)--- 显存占用降 40%,开销增而可控
-
- 前向传播时只保存关键节点,丢弃中间激活
- 反向时重新计算需要的中间激活,不重算大头的 layer function F
- 优化 3:通信 - 计算重叠 (DualPipe 扩展)--- 消除 GPU "摸鱼时间"(mHC 的多流残差拓扑会让Pipeline stage 间的通信量剧增)
⑤洞见
- 洞见 A:宏观拓扑(macro-design)确实能"像 scaling 一样"带来增益,但必须保住 identity mapping 的稳定性
- 洞见 B:用"流形约束"而不是"惩罚项"治理稳定性,往往更强、更可控
- 洞见 C:LLM 里"FLOPs 不变 ≠ 成本不变",memory wall 与通信成本必须显式设计


