DeepSeek开年发布新论文:提出新型残差连接mHC

12月31日晚间,DeepSeek团队发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该架构解决了传统超连接(Hyper-Connections, HC)引发的信号爆炸与梯度不稳定问题

DeepSeek创始人兼CEO梁文锋这次同样出现在合著名单中。


要了解论文提出的mHC,就不得不先说下残差连接。残差连接(Residual Connection)是深度学习领域的革命性创新: - 解决了超深层网络训练的梯度消失/爆炸问题。它最早由何恺明等人在2015年提出的 ResNet(Residual Network)中系统性地引入,并取得了显著效果。

为什么需要残差连接?

在训练非常深的神经网络时,人们发现:

  • 网络深度增加后,训练误差反而上升(称为"退化问题");
  • 并非过拟合,而是优化困难,导致性能不升反降;
  • 传统的"逐层堆叠"方式限制了信息流动,尤其是梯度反向传播。

好比我们玩的传话游戏一样,第一个人说一句话传给第二个人,第二个人依次往下传播,当传播到第十个人的时候,原来的话已经变味了,丢失或者已经改变原有意思。深层的深度学习跟这个很像,训练的层数越多,**信息(尤其是最初的输入数据意义)在传播过程中丢失和扭曲得就越严重。**残差连接就是在传话的同时,把第一个人的话再直接传给第十个人,第十个人可以用第一个人的话纠正上一个人传的话。这样就防止了信息的丢失,可以让网络的层数堆叠的更深,训练出更好的模型。

HC:追求更灵活的特征融合机制

然而,随着模型规模扩大,研究者开始探索更复杂的连接拓扑。Hyper-Connections(HC)便是代表之一------它将残差路径扩展为多通道、多映射的高维结构,通过可学习的线性变换重组输入与输出特征,显著提升模型表达力。

但代价是:HC打破了恒等映射约束 。DeepSeek 实验发现,在 27B 参数模型中,HC 的残差映射在反向传播时可将信号放大近 3000 倍,导致严重梯度爆炸、训练损失震荡甚至发散。同时,HC 还带来更高的 GPU 显存占用与通信开销,限制其在超大规模场景的实用性。

这就好比残差连接是一天单行道,hc直接修了一条多行道的高速公路,但是它没有划分车道,没有约束,时不时会出现很多车祸导致交通堵塞。

"性能提升了,但模型训练却不稳定了。"------这是当前大模型架构探索中的普遍困境。


DeepSeek提出mHC:用"双随机流形"重建稳定性

DeepSeek 的解决方案极具几何直觉:不对残差映射"放任自流",而是将HC中的残差映射矩阵投影到双随机矩阵构成的"流形空间",在保留拓扑表达力的同时,恢复原始残差连接的恒等映射性质。

具体而言,mHC利用Sinkhorn-Knopp算法对Hes进行熵投影,使其落入Birkhoff多面体中。这一操作有效地将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和列之和均等于1,因此Hesxi可视为输入特征的凸组合。这种特性有助于实现条件良好的信号传播:一方面,特征均值得以保持;另一方面,信号范数得到严格正则化,从而有效缓解了信号消失或爆炸的风险。此外,由于双随机矩阵的矩阵乘法具有封闭性,复合映射IH同样保留了这一保真特性。因此,mHC能够有效维持任意深度间恒等映射的稳定性。为了确保计算效率,我们采用了核融合技术,并基于TileLang开发了混合精度核。此外,他们还通过选择性重新计算以及在DualPipe调度中精心安排通信重叠,进一步降低了内存占用。

mHC对应的残差映射矩阵更集中于1附近,反观HC则存在多个爆炸点。

mHC就像对HC多行道的高速公路加了车道约束。

结果:mHC 的复合信号增益被控制在 1.6 倍 ,远低于 HC 的 3000 倍,逼近理想恒等映射的稳定性


实测验证

DeepSeek 在 27B 参数规模下对比了 Baseline(标准残差)、HC 与 mHC 三种架构:

训练稳定性

HC 训练中损失剧烈震荡;mHC 则平稳收敛,梯度范数稳定,无爆炸现象。

下游任务表现

mHC 在 8 项关键基准上全面超越 HC 和 Baseline:

  • BBH(复杂推理):51.0 vs 48.9(+2.1%)

  • DROP(阅读理解):53.9 vs 51.6(+2.3%)

  • GSM8K、MATH、MMLU 等任务也取得显著提升。

可扩展性

从 3B 到 27B,mHC 的性能增益随模型规模扩大而增强,证明其在深层大模型中更具适配性。在 1T token 训练下未出现过拟合,泛化能力优异。

系统效率

尽管引入流形投影,mHC 通过内核融合、重计算、通信重叠 等工程优化,在扩展因子 n=4n=4 时仅增加 6.7% 训练时间开销,GPU 利用率超 90%,具备高工程可行性。


未来展望

DeepSeek 团队指出,mHC 并非终点,而是一个通用框架

"双随机约束只是起点,未来可针对不同任务设计特定流形,在表达能力与稳定性之间实现更优权衡。"

更重要的是,mHC 重新将学界注意力拉回宏观架构设计 ------在"堆数据、堆参数"之外,对连接拓扑的几何与动力学理解,或将成为突破当前大模型瓶颈的关键。

论文地址:https://arxiv.org/pdf/2512.24880

大模型相关课程:

|----|---|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 一 | 1.大模型的发展与局限性 |
| 2 | 二 | 1.1 ollama本地快速部署deepseek |
| 3 | 二 | 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天 |
| 4 | 二 | 1.3 linux本地部署通义万相2.1+deepseek视频生成 |
| 5 | 二 | 1.4 Qwen2.5-Omni全模态大模型部署 |
| 6 | 二 | 1.5 Stable Diffusion中文文生图模型部署 |
| 7 | 二 | 1.6 DeepSeek-OCR部署尝鲜 |
| 8 | 二 | 2.1 从零训练自己的大模型概述 |
| 9 | 二 | 2.2 分词器 |
| 10 | 二 | 2.3 预训练自己的模型 |
| 11 | 二 | 2.4 微调自己的模型 |
| 12 | 二 | 2.5 人类对齐训练自己的模型 |
| 13 | 二 | 3.1 微调训练详解 |
| 14 | 二 | 3.2 Llama-Factory微调训练deepseek-r1实践 |
| 15 | 二 | 3.3 transform+LoRA代码微调deepseek实践 |
| 16 | 二 | 4.1 文生图(Text-to-Image)模型发展史 |
| 17 | 二 | 4.2 文生图GUI训练实践-真人写实生成 |
| 18 | 二 | 4.3 文生图代码训练实践-真人写实生成 |
| 19 | 二 | 5.1 文生视频(Text-to-Video)模型发展史 |
| 20 | 二 | 5.2 文生视频(Text-to-Video)模型训练实践 |
| 21 | 二 | 6.1 目标检测模型的发展史 |
| 22 | | 6.2 YOLO模型训练实践及目标跟踪 |
| 23 | 三 | 1.1 Dify介绍 |
| 24 | 三 | 1.2 Dify安装 |
| 25 | 三 | 1.3 Dify文本生成快速搭建旅游助手 |
| 26 | 三 | 1.4 Dify聊天助手快速搭建智能淘宝店小二 |
| 27 | 三 | 1.5 Dify agent快速搭建爬虫助手 |
| 28 | 三 | 1.6 Dify工作流快速搭建数据可视化助手 |
| 29 | 三 | 1.7 Dify chatflow快速搭建数据查询智能助手 |
| 30 | 三 | 2.1 RAG介绍 |
| 31 | 三 | 2.2 Spring AI-手动实现RAG |
| 32 | 三 | 2.3 Spring AI-开箱即用完整实践RAG |
| 33 | 三 | 2.4 LlamaIndex实现RAG |
| 34 | 三 | 2.5 LlamaIndex构建RAG优化与实践 |
| 35 | 三 | 2.6 LangChain实现RAG企业知识问答助手 |

相关推荐
wjykp1 分钟前
part6 PyTorch
人工智能·pytorch·python
liliangcsdn6 分钟前
DDIM扩散模型改进采样策略的推理探索
人工智能·深度学习·自然语言处理
alphaTao9 分钟前
LeetCode 每日一题 2025/12/29-2026/1/4
算法·leetcode
ShaderJoy9 分钟前
ShaderJoy —— 《对称镜面下的绞肉机》【算法悬疑短文】【Python】
算法·leetcode·面试
读创商闻11 分钟前
中广融投让传统文化 “活” 起来
大数据·网络·人工智能
长桥夜波12 分钟前
【第二十五周】机器学习笔记
人工智能·笔记·机器学习
智驱力人工智能12 分钟前
在安全与尊严之间 特殊人员离岗检测系统的技术实现与伦理实践 高风险人员脱岗预警 人员离岗实时合规检测 监狱囚犯脱岗行为AI分析方案
人工智能·深度学习·opencv·算法·目标检测·cnn·边缘计算
Pith_12 分钟前
模式识别与机器学习复习笔记(上)
人工智能·笔记·机器学习
培林将军14 分钟前
C语言指针
c语言·开发语言·算法
大任视点14 分钟前
云南首家现代农事综合服务中心在普洱思茅落户
大数据·人工智能