论文阅读-DeepSeek-mHC

①核心贡献

  • 传统残差连接的pre-Norm深层容易出现表示崩溃,Post-Norm重新引入梯度消失风险,训练难度大
  • mhc用来解决这样的问题,并且在豆包团队的HC基础是进行迭代

传统残差连接 (ResNet 用了 10 年的技术)是单车道公路:信息只能沿着一条路走,容易堵车(梯度消失)或撞车(表示崩溃)。

HC (Hyper-Connections)把单车道扩成了多车道立交桥,信息吞吐暴涨,表达能力提升,但副作用也来了:

  • 连接矩阵 "自由生长",破坏了残差连接的恒等映射属性(信号无损传递的核心)
  • 信号被随意放大(27B 模型中最大增益达 3000 倍),导致梯度爆炸、训练崩溃
  • 多车道带来巨大显存开销,工程落地困难

mHC 的思路很简单:路照修,但给每个路口配个 "数学交警",让多车道交通既高效又安全。

mHC 用"流内残差混合矩阵的流形约束(manifold constraint)"恢复 residual 的恒等映射稳定性,同时用一整套 kernel/重算/通信重叠优化把系统开销压下来,使得"扩展残差拓扑"这条路能在大规模预训练中稳定、可扩展

② mHC 的关键机制:把 H^{res} 投影到一个"稳定的流形"上

  • 论文把 H^{res} 约束到 Birkhoff polytope(双随机矩阵集合):矩阵元素非负,且每行每列都求和是1,好处:
    • 双随机矩阵的谱范数有界,因此不会把信号/梯度无限放大,直接解决爆炸问题
    • 双随机矩阵相乘仍是双随机矩阵,是一个复合的闭包, 等价于把"identity mapping 的稳定性"推广到更一般的"守恒混合"
    • 几何解释清晰:Birkhoff polytope 是置换矩阵的凸包,所以这种残差混合可以理解为"对多种置换的凸组合",反复应用会逐渐增强跨流信息融合,但依然受控
  • 如何进行投影 ?--先自由,后约束。先让模型学习一个无约束的矩阵,再用高效的投影算法和约束把它 "拉回" 双随机流形上,这是工程与数学的完美折中

③科学证明 :如何证明 mHC "更稳 + 更好 + 可扩展"?

  • 稳定性: loss 与梯度范数
    • 对 27B 预训练:HC 会出现 loss 异常上冲、梯度范数不稳定;mHC 的 loss/梯度曲线更像 baseline(稳定),并且最终训练 loss 相对 baseline 有明显下降
  • 机制验证
  • 下游能力:Benchmark
    • 8 个下游任务(如 BBH、DROP、GSM8K、HellaSwag、MATH、MMLU、PIQA、TriviaQA)对比 baseline/HC/mHC:总体上 mHC > baseline ,且在多数任务上 mHC ≥ HC,并强调在推理类任务(如 BBH、DROP)相对 HC 仍有增益
  • Scaling:
    • compute scaling:在 3B / 9B / 27B(数据按参数比例)上画 compute scaling 曲线,mHC 的相对优势在更大算力下仍能保持,只是轻微衰减。
    • token scaling:固定 3B,训练过程中不同 token 位置的 loss 轨迹,mHC 同样稳定优于 baseline。

这部分的科学意义是:它不只是"某个点有效",而是展示了"优势随规模扩展仍成立"

④系统工程

最主要是在仅增加6.7%开销的情况下,解决了HC的内存墙的问题

  • 优化 1:Kernel Fusion(算子融合 + 混合精度)--减少内存读写
  • 优化 2:Recomputing(选择性重算)--- 显存占用降 40%,开销增而可控
    • 前向传播时只保存关键节点,丢弃中间激活
    • 反向时重新计算需要的中间激活,不重算大头的 layer function F
  • 优化 3:通信 - 计算重叠 (DualPipe 扩展)--- 消除 GPU "摸鱼时间"(mHC 的多流残差拓扑会让Pipeline stage 间的通信量剧增

⑤洞见

  • 洞见 A:宏观拓扑(macro-design)确实能"像 scaling 一样"带来增益,但必须保住 identity mapping 的稳定性
  • 洞见 B:用"流形约束"而不是"惩罚项"治理稳定性,往往更强、更可控
  • 洞见 C:LLM 里"FLOPs 不变 ≠ 成本不变",memory wall 与通信成本必须显式设计
相关推荐
sheeta19982 小时前
LeetCode 每日一题笔记 日期:2026.04.21 题目:1722. 执行交换操作后的最小汉明距离
笔记·算法·leetcode
鲸渔2 小时前
【C++ 跳转语句】break、continue、goto 与 return
开发语言·c++·算法
AI科技星2 小时前
基于螺旋元逻辑的宇宙统一场论底层公理构建(乖乖数学)
算法·机器学习·数学建模·数据挖掘·量子计算
qiqsevenqiqiqiqi3 小时前
MC0550鱼肠剑试锋芒
数据结构·算法
仍然.3 小时前
算法题目---链表
数据结构·算法·链表
luoganttcc3 小时前
华为昇腾(Ascend)等芯片,同样存在“寄存器 / 片上存储资源限制并发”的问题
算法·华为
小O的算法实验室3 小时前
2025年SEVC,神经-粒子群算法+大规模动态优化,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进
wayz113 小时前
Day 7:第一周复习与模型综合比较
人工智能·算法·机器学习·量化交易
玛丽莲茼蒿3 小时前
Leetcode hot100 买卖股票的最佳时机【简单】
算法·leetcode·职场和发展