DeepSeek开年发布新论文：提出新型残差连接mHC

12月31日晚间，DeepSeek团队发布了一篇新论文，提出了一种名为mHC（流形约束超连接）的新架构。该架构解决了传统超连接（Hyper-Connections, HC）引发的信号爆炸与梯度不稳定问题。

DeepSeek创始人兼CEO梁文锋这次同样出现在合著名单中。

要了解论文提出的mHC，就不得不先说下残差连接。残差连接(Residual Connection)是深度学习领域的革命性创新: - 解决了超深层网络训练的梯度消失/爆炸问题。它最早由何恺明等人在2015年提出的 ResNet（Residual Network）中系统性地引入，并取得了显著效果。

为什么需要残差连接？

在训练非常深的神经网络时，人们发现：

网络深度增加后，训练误差反而上升（称为"退化问题"）；
并非过拟合，而是优化困难，导致性能不升反降；
传统的"逐层堆叠"方式限制了信息流动，尤其是梯度反向传播。

好比我们玩的传话游戏一样，第一个人说一句话传给第二个人，第二个人依次往下传播，当传播到第十个人的时候，原来的话已经变味了，丢失或者已经改变原有意思。深层的深度学习跟这个很像，训练的层数越多，**信息（尤其是最初的输入数据意义）在传播过程中丢失和扭曲得就越严重。**残差连接就是在传话的同时，把第一个人的话再直接传给第十个人，第十个人可以用第一个人的话纠正上一个人传的话。这样就防止了信息的丢失，可以让网络的层数堆叠的更深，训练出更好的模型。

HC:追求更灵活的特征融合机制

然而，随着模型规模扩大，研究者开始探索更复杂的连接拓扑。Hyper-Connections（HC）便是代表之一------它将残差路径扩展为多通道、多映射的高维结构，通过可学习的线性变换重组输入与输出特征，显著提升模型表达力。

但代价是：HC打破了恒等映射约束 。DeepSeek 实验发现，在 27B 参数模型中，HC 的残差映射在反向传播时可将信号放大近 3000 倍，导致严重梯度爆炸、训练损失震荡甚至发散。同时，HC 还带来更高的 GPU 显存占用与通信开销，限制其在超大规模场景的实用性。

这就好比残差连接是一天单行道，hc直接修了一条多行道的高速公路，但是它没有划分车道，没有约束，时不时会出现很多车祸导致交通堵塞。

"性能提升了，但模型训练却不稳定了。"------这是当前大模型架构探索中的普遍困境。

DeepSeek提出mHC：用"双随机流形"重建稳定性

DeepSeek 的解决方案极具几何直觉：不对残差映射"放任自流"，而是将HC中的残差映射矩阵投影到双随机矩阵构成的"流形空间"，在保留拓扑表达力的同时，恢复原始残差连接的恒等映射性质。

具体而言，mHC利用Sinkhorn-Knopp算法对Hes进行熵投影，使其落入Birkhoff多面体中。这一操作有效地将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和列之和均等于1，因此Hesxi可视为输入特征的凸组合。这种特性有助于实现条件良好的信号传播：一方面，特征均值得以保持；另一方面，信号范数得到严格正则化，从而有效缓解了信号消失或爆炸的风险。此外，由于双随机矩阵的矩阵乘法具有封闭性，复合映射IH同样保留了这一保真特性。因此，mHC能够有效维持任意深度间恒等映射的稳定性。为了确保计算效率，我们采用了核融合技术，并基于TileLang开发了混合精度核。此外，他们还通过选择性重新计算以及在DualPipe调度中精心安排通信重叠，进一步降低了内存占用。