DeepSeek开年发布新论文:提出新型残差连接mHC

12月31日晚间,DeepSeek团队发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该架构解决了传统超连接(Hyper-Connections, HC)引发的信号爆炸与梯度不稳定问题

DeepSeek创始人兼CEO梁文锋这次同样出现在合著名单中。


要了解论文提出的mHC,就不得不先说下残差连接。残差连接(Residual Connection)是深度学习领域的革命性创新: - 解决了超深层网络训练的梯度消失/爆炸问题。它最早由何恺明等人在2015年提出的 ResNet(Residual Network)中系统性地引入,并取得了显著效果。

为什么需要残差连接?

在训练非常深的神经网络时,人们发现:

  • 网络深度增加后,训练误差反而上升(称为"退化问题");
  • 并非过拟合,而是优化困难,导致性能不升反降;
  • 传统的"逐层堆叠"方式限制了信息流动,尤其是梯度反向传播。

好比我们玩的传话游戏一样,第一个人说一句话传给第二个人,第二个人依次往下传播,当传播到第十个人的时候,原来的话已经变味了,丢失或者已经改变原有意思。深层的深度学习跟这个很像,训练的层数越多,**信息(尤其是最初的输入数据意义)在传播过程中丢失和扭曲得就越严重。**残差连接就是在传话的同时,把第一个人的话再直接传给第十个人,第十个人可以用第一个人的话纠正上一个人传的话。这样就防止了信息的丢失,可以让网络的层数堆叠的更深,训练出更好的模型。

HC:追求更灵活的特征融合机制

然而,随着模型规模扩大,研究者开始探索更复杂的连接拓扑。Hyper-Connections(HC)便是代表之一------它将残差路径扩展为多通道、多映射的高维结构,通过可学习的线性变换重组输入与输出特征,显著提升模型表达力。

但代价是:HC打破了恒等映射约束 。DeepSeek 实验发现,在 27B 参数模型中,HC 的残差映射在反向传播时可将信号放大近 3000 倍,导致严重梯度爆炸、训练损失震荡甚至发散。同时,HC 还带来更高的 GPU 显存占用与通信开销,限制其在超大规模场景的实用性。

这就好比残差连接是一天单行道,hc直接修了一条多行道的高速公路,但是它没有划分车道,没有约束,时不时会出现很多车祸导致交通堵塞。

"性能提升了,但模型训练却不稳定了。"------这是当前大模型架构探索中的普遍困境。


DeepSeek提出mHC:用"双随机流形"重建稳定性

DeepSeek 的解决方案极具几何直觉:不对残差映射"放任自流",而是将HC中的残差映射矩阵投影到双随机矩阵构成的"流形空间",在保留拓扑表达力的同时,恢复原始残差连接的恒等映射性质。

具体而言,mHC利用Sinkhorn-Knopp算法对Hes进行熵投影,使其落入Birkhoff多面体中。这一操作有效地将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和列之和均等于1,因此Hesxi可视为输入特征的凸组合。这种特性有助于实现条件良好的信号传播:一方面,特征均值得以保持;另一方面,信号范数得到严格正则化,从而有效缓解了信号消失或爆炸的风险。此外,由于双随机矩阵的矩阵乘法具有封闭性,复合映射IH同样保留了这一保真特性。因此,mHC能够有效维持任意深度间恒等映射的稳定性。为了确保计算效率,我们采用了核融合技术,并基于TileLang开发了混合精度核。此外,他们还通过选择性重新计算以及在DualPipe调度中精心安排通信重叠,进一步降低了内存占用。

mHC对应的残差映射矩阵更集中于1附近,反观HC则存在多个爆炸点。

mHC就像对HC多行道的高速公路加了车道约束。

结果:mHC 的复合信号增益被控制在 1.6 倍 ,远低于 HC 的 3000 倍,逼近理想恒等映射的稳定性


实测验证

DeepSeek 在 27B 参数规模下对比了 Baseline(标准残差)、HC 与 mHC 三种架构:

训练稳定性

HC 训练中损失剧烈震荡;mHC 则平稳收敛,梯度范数稳定,无爆炸现象。

下游任务表现

mHC 在 8 项关键基准上全面超越 HC 和 Baseline:

  • BBH(复杂推理):51.0 vs 48.9(+2.1%)

  • DROP(阅读理解):53.9 vs 51.6(+2.3%)

  • GSM8K、MATH、MMLU 等任务也取得显著提升。

可扩展性

从 3B 到 27B,mHC 的性能增益随模型规模扩大而增强,证明其在深层大模型中更具适配性。在 1T token 训练下未出现过拟合,泛化能力优异。

系统效率

尽管引入流形投影,mHC 通过内核融合、重计算、通信重叠 等工程优化,在扩展因子 n=4n=4 时仅增加 6.7% 训练时间开销,GPU 利用率超 90%,具备高工程可行性。


未来展望

DeepSeek 团队指出,mHC 并非终点,而是一个通用框架

"双随机约束只是起点,未来可针对不同任务设计特定流形,在表达能力与稳定性之间实现更优权衡。"

更重要的是,mHC 重新将学界注意力拉回宏观架构设计 ------在"堆数据、堆参数"之外,对连接拓扑的几何与动力学理解,或将成为突破当前大模型瓶颈的关键。

论文地址:https://arxiv.org/pdf/2512.24880

大模型相关课程:

|----|---|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | 一 | 1.大模型的发展与局限性 |
| 2 | 二 | 1.1 ollama本地快速部署deepseek |
| 3 | 二 | 1.2 linux本地部署deepseek千问蒸馏版+web对话聊天 |
| 4 | 二 | 1.3 linux本地部署通义万相2.1+deepseek视频生成 |
| 5 | 二 | 1.4 Qwen2.5-Omni全模态大模型部署 |
| 6 | 二 | 1.5 Stable Diffusion中文文生图模型部署 |
| 7 | 二 | 1.6 DeepSeek-OCR部署尝鲜 |
| 8 | 二 | 2.1 从零训练自己的大模型概述 |
| 9 | 二 | 2.2 分词器 |
| 10 | 二 | 2.3 预训练自己的模型 |
| 11 | 二 | 2.4 微调自己的模型 |
| 12 | 二 | 2.5 人类对齐训练自己的模型 |
| 13 | 二 | 3.1 微调训练详解 |
| 14 | 二 | 3.2 Llama-Factory微调训练deepseek-r1实践 |
| 15 | 二 | 3.3 transform+LoRA代码微调deepseek实践 |
| 16 | 二 | 4.1 文生图(Text-to-Image)模型发展史 |
| 17 | 二 | 4.2 文生图GUI训练实践-真人写实生成 |
| 18 | 二 | 4.3 文生图代码训练实践-真人写实生成 |
| 19 | 二 | 5.1 文生视频(Text-to-Video)模型发展史 |
| 20 | 二 | 5.2 文生视频(Text-to-Video)模型训练实践 |
| 21 | 二 | 6.1 目标检测模型的发展史 |
| 22 | | 6.2 YOLO模型训练实践及目标跟踪 |
| 23 | 三 | 1.1 Dify介绍 |
| 24 | 三 | 1.2 Dify安装 |
| 25 | 三 | 1.3 Dify文本生成快速搭建旅游助手 |
| 26 | 三 | 1.4 Dify聊天助手快速搭建智能淘宝店小二 |
| 27 | 三 | 1.5 Dify agent快速搭建爬虫助手 |
| 28 | 三 | 1.6 Dify工作流快速搭建数据可视化助手 |
| 29 | 三 | 1.7 Dify chatflow快速搭建数据查询智能助手 |
| 30 | 三 | 2.1 RAG介绍 |
| 31 | 三 | 2.2 Spring AI-手动实现RAG |
| 32 | 三 | 2.3 Spring AI-开箱即用完整实践RAG |
| 33 | 三 | 2.4 LlamaIndex实现RAG |
| 34 | 三 | 2.5 LlamaIndex构建RAG优化与实践 |
| 35 | 三 | 2.6 LangChain实现RAG企业知识问答助手 |

相关推荐
冬奇Lab1 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab1 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP5 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年5 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼5 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS5 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区6 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈6 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang7 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
颜酱8 小时前
单调栈:从模板到实战
javascript·后端·算法