论文阅读-DeepSeek-mHC

①核心贡献

  • 传统残差连接的pre-Norm深层容易出现表示崩溃,Post-Norm重新引入梯度消失风险,训练难度大
  • mhc用来解决这样的问题,并且在豆包团队的HC基础是进行迭代

传统残差连接 (ResNet 用了 10 年的技术)是单车道公路:信息只能沿着一条路走,容易堵车(梯度消失)或撞车(表示崩溃)。

HC (Hyper-Connections)把单车道扩成了多车道立交桥,信息吞吐暴涨,表达能力提升,但副作用也来了:

  • 连接矩阵 "自由生长",破坏了残差连接的恒等映射属性(信号无损传递的核心)
  • 信号被随意放大(27B 模型中最大增益达 3000 倍),导致梯度爆炸、训练崩溃
  • 多车道带来巨大显存开销,工程落地困难

mHC 的思路很简单:路照修,但给每个路口配个 "数学交警",让多车道交通既高效又安全。

mHC 用"流内残差混合矩阵的流形约束(manifold constraint)"恢复 residual 的恒等映射稳定性,同时用一整套 kernel/重算/通信重叠优化把系统开销压下来,使得"扩展残差拓扑"这条路能在大规模预训练中稳定、可扩展

② mHC 的关键机制:把 H^{res} 投影到一个"稳定的流形"上

  • 论文把 H^{res} 约束到 Birkhoff polytope(双随机矩阵集合):矩阵元素非负,且每行每列都求和是1,好处:
    • 双随机矩阵的谱范数有界,因此不会把信号/梯度无限放大,直接解决爆炸问题
    • 双随机矩阵相乘仍是双随机矩阵,是一个复合的闭包, 等价于把"identity mapping 的稳定性"推广到更一般的"守恒混合"
    • 几何解释清晰:Birkhoff polytope 是置换矩阵的凸包,所以这种残差混合可以理解为"对多种置换的凸组合",反复应用会逐渐增强跨流信息融合,但依然受控
  • 如何进行投影 ?--先自由,后约束。先让模型学习一个无约束的矩阵,再用高效的投影算法和约束把它 "拉回" 双随机流形上,这是工程与数学的完美折中

③科学证明 :如何证明 mHC "更稳 + 更好 + 可扩展"?

  • 稳定性: loss 与梯度范数
    • 对 27B 预训练:HC 会出现 loss 异常上冲、梯度范数不稳定;mHC 的 loss/梯度曲线更像 baseline(稳定),并且最终训练 loss 相对 baseline 有明显下降
  • 机制验证
  • 下游能力:Benchmark
    • 8 个下游任务(如 BBH、DROP、GSM8K、HellaSwag、MATH、MMLU、PIQA、TriviaQA)对比 baseline/HC/mHC:总体上 mHC > baseline ,且在多数任务上 mHC ≥ HC,并强调在推理类任务(如 BBH、DROP)相对 HC 仍有增益
  • Scaling:
    • compute scaling:在 3B / 9B / 27B(数据按参数比例)上画 compute scaling 曲线,mHC 的相对优势在更大算力下仍能保持,只是轻微衰减。
    • token scaling:固定 3B,训练过程中不同 token 位置的 loss 轨迹,mHC 同样稳定优于 baseline。

这部分的科学意义是:它不只是"某个点有效",而是展示了"优势随规模扩展仍成立"

④系统工程

最主要是在仅增加6.7%开销的情况下,解决了HC的内存墙的问题

  • 优化 1:Kernel Fusion(算子融合 + 混合精度)--减少内存读写
  • 优化 2:Recomputing(选择性重算)--- 显存占用降 40%,开销增而可控
    • 前向传播时只保存关键节点,丢弃中间激活
    • 反向时重新计算需要的中间激活,不重算大头的 layer function F
  • 优化 3:通信 - 计算重叠 (DualPipe 扩展)--- 消除 GPU "摸鱼时间"(mHC 的多流残差拓扑会让Pipeline stage 间的通信量剧增

⑤洞见

  • 洞见 A:宏观拓扑(macro-design)确实能"像 scaling 一样"带来增益,但必须保住 identity mapping 的稳定性
  • 洞见 B:用"流形约束"而不是"惩罚项"治理稳定性,往往更强、更可控
  • 洞见 C:LLM 里"FLOPs 不变 ≠ 成本不变",memory wall 与通信成本必须显式设计
相关推荐
如何原谅奋力过但无声12 小时前
【灵神高频面试题合集09-13】二叉树、二叉搜索树
数据结构·算法·leetcode
皆圥忈12 小时前
磁盘物理结构与文件系统基础讲解
linux·算法
数据仓库搬砖人12 小时前
用 LangGraph 从零搭一个客服 Agent:多轮对话 + 工具调用全流程
算法
GuWenyue12 小时前
告别JS类型坑!Ts为什么在ai时代逐渐成为"第一"语言
前端·算法·typescript
子琦啊12 小时前
哈希与前缀和
算法·哈希算法
Deep-w13 小时前
【MATLAB】基于离散 LQR 的车辆横向轨迹跟踪控制方法研究
开发语言·算法·matlab
Peter·Pan爱编程13 小时前
23. 算法库:用算法代替手写循环
c++·人工智能·算法
小欣加油13 小时前
leetcode2161 根据给定数字划分数组
数据结构·c++·算法·leetcode·职场和发展
Momo__zz14 小时前
零代码平台设计
算法·深度优先
cpp_250114 小时前
P2947 [USACO09MAR] Look Up S
数据结构·c++·算法·题解·单调栈·洛谷