论文阅读-DeepSeek-mHC

joker_sxj2026-04-22 14:59

①核心贡献

传统残差连接的pre-Norm深层容易出现表示崩溃，Post-Norm重新引入梯度消失风险，训练难度大
mhc用来解决这样的问题，并且在豆包团队的HC基础是进行迭代

传统残差连接 （ResNet 用了 10 年的技术）是单车道公路：信息只能沿着一条路走，容易堵车（梯度消失）或撞车（表示崩溃）。

HC （Hyper-Connections）把单车道扩成了多车道立交桥，信息吞吐暴涨，表达能力提升，但副作用也来了：

连接矩阵 "自由生长"，破坏了残差连接的恒等映射属性（信号无损传递的核心）
信号被随意放大（27B 模型中最大增益达 3000 倍），导致梯度爆炸、训练崩溃
多车道带来巨大显存开销，工程落地困难

mHC 的思路很简单：路照修，但给每个路口配个 "数学交警"，让多车道交通既高效又安全。

mHC 用"流内残差混合矩阵的流形约束（manifold constraint）"恢复 residual 的恒等映射稳定性，同时用一整套 kernel/重算/通信重叠优化把系统开销压下来，使得"扩展残差拓扑"这条路能在大规模预训练中稳定、可扩展。

② mHC 的关键机制：把 H^{res} 投影到一个"稳定的流形"上

论文把 H^{res} 约束到 Birkhoff polytope（双随机矩阵集合）：矩阵元素非负，且每行每列都求和是1，好处：

- 双随机矩阵的谱范数有界，因此不会把信号/梯度无限放大，直接解决爆炸问题
- 双随机矩阵相乘仍是双随机矩阵，是一个复合的闭包，等价于把"identity mapping 的稳定性"推广到更一般的"守恒混合"
- 几何解释清晰：Birkhoff polytope 是置换矩阵的凸包，所以这种残差混合可以理解为"对多种置换的凸组合"，反复应用会逐渐增强跨流信息融合，但依然受控

如何进行投影？--先自由，后约束。先让模型学习一个无约束的矩阵，再用高效的投影算法和约束把它 "拉回" 双随机流形上，这是工程与数学的完美折中

③科学证明：如何证明 mHC "更稳 + 更好 + 可扩展"？

稳定性： loss 与梯度范数

- 对 27B 预训练：HC 会出现 loss 异常上冲、梯度范数不稳定；mHC 的 loss/梯度曲线更像 baseline（稳定），并且最终训练 loss 相对 baseline 有明显下降

机制验证：

下游能力：Benchmark

- 8 个下游任务（如 BBH、DROP、GSM8K、HellaSwag、MATH、MMLU、PIQA、TriviaQA）对比 baseline/HC/mHC：总体上 mHC > baseline ，且在多数任务上 mHC ≥ HC，并强调在推理类任务（如 BBH、DROP）相对 HC 仍有增益

Scaling：

- compute scaling：在 3B / 9B / 27B（数据按参数比例）上画 compute scaling 曲线，mHC 的相对优势在更大算力下仍能保持，只是轻微衰减。
- token scaling：固定 3B，训练过程中不同 token 位置的 loss 轨迹，mHC 同样稳定优于 baseline。

这部分的科学意义是：它不只是"某个点有效"，而是展示了"优势随规模扩展仍成立"

④系统工程

最主要是在仅增加6.7%开销的情况下，解决了HC的内存墙的问题

优化 1：Kernel Fusion（算子融合 + 混合精度）--减少内存读写

优化 2：Recomputing（选择性重算）--- 显存占用降 40%，开销增而可控

- 前向传播时只保存关键节点，丢弃中间激活
- 反向时重新计算需要的中间激活，不重算大头的 layer function F

优化 3：通信 - 计算重叠 （DualPipe 扩展）--- 消除 GPU "摸鱼时间"（mHC 的多流残差拓扑会让Pipeline stage 间的通信量剧增）

⑤洞见

洞见 A：宏观拓扑（macro-design）确实能"像 scaling 一样"带来增益，但必须保住 identity mapping 的稳定性
洞见 B：用"流形约束"而不是"惩罚项"治理稳定性，往往更强、更可控
洞见 C：LLM 里"FLOPs 不变 ≠ 成本不变"，memory wall 与通信成本必须显式设计

上一篇：2000—CentOS Linux 7上部署Oracle 19c(19.3) RAC（RedHat/CentOS 7/8）

下一篇：Java集成Vosk实现离线语音识别

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03Codex 下载安装指南：Windows 和 macOS 官方版下载 04【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 05【AI】2026 年具身智能模型和世界模型总结 06Codex 桌面端更新后 Chrome 插件和 Computer Use 不可用，怎么排查和修复 07CC-Switch 下载、安装与使用配置指南【2026.5.29】08裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 09CC-Switch & Claude 基于 Linux 服务器安装使用指南 10Codex 接入 DeepSeek API 完整配置文档