DeepSeek新论文火了：不用卷算力，一个数学约束让大模型更聪明

想象这样一个场景：几个人围成一圈玩传话游戏，第一个人悄悄说一句话，依次往后传。如果中间有个人声音太小，后面的人就听不清了，信息就此中断。

这恰恰是大模型训练过程中曾面临的困境。而这，正是我们今天故事的开端。

我们知道，像DeepSeek、GPT这样的大模型，本质上是在模仿大脑神经元的连接方式------一个超大的计算图。

数据输入后，会逐层流过多个神经元层，每层都对数据进行处理，最终输出结果。每一层其实就是一堆数学运算，输入X，输出Y，我们可以把它抽象成一个函数：Y = F(X)。

问题来了：随着层数越来越多，如果某一层输出的数值接近零，信号就会越来越弱，像那个传话游戏中声音太小的人，导致信息在传递中消失。

于是，大佬们想出了一个办法：让每层输出时都加上这一层的原始输入。

用公式表示就是：Y = F(X) + X

这样一来，就算F(X)处理有问题，至少还有个保底的原始输入X。信号可以安全地从浅层传到深层，不会在中间消失。

这就是残差网络（ResNet）。

残差网络解决了稳定性问题，让模型能堆到上百层。但这只是让模型能"跑起来"，如何让它更"聪明"呢？

就像人想变聪明，要么学得更多，要么想得更多。对于大模型来说，"学得更多"就是增加投喂的学习资料，但数据总有上限；"想得更多"则是指层和层之间传递的信息量。

2024年，字节的大佬们在"想得更多"这个方向上发力了。

他们将原本单通道的信号扩展成多通道------通过乘以一个矩阵，把同一份数据在数学上变换成N份不同的表示。这意味着大模型每层都可以从不同角度处理数据，实现了"想得更多"。

这个方案叫超连接（Hyper Connections，简称HC），效果确实明显：模型的推理能力和知识储备都有提升。

但这又带来了新问题。

HC方案本质上是通过矩阵乘法实现多通道的，每一层都有这样一个矩阵。层数一多，就相当于矩阵连乘，导致数值越乘越大------信号在传播过程中被放大了几千倍。

参数更新的幅度会剧烈震荡，也就是所谓的"梯度爆炸"，严重时会导致训练崩溃。

DeepSeek发现了这个问题后，在HC的基础上加了一个限制：要求矩阵的每一行、每一列加起来都等于一。

这个特殊矩阵叫双随机矩阵。有了这个约束，连乘后的数值都会被限制在一个合理范围内，不会失控。

这个在HC基础上加入双随机矩阵约束的方案，就是流形约束超连接（Manifold Constraint Hyper Connections，简称MHC）。

实验数据证明，在27B参数模型上，MHC的信号放大只有1.6倍，对比HC的高达3000倍，训练过程稳定多了。

当然，MHC在HC的基础上多乘了一个双随机矩阵，计算量更大了，耗时也会增加。

DeepSeek的解法是在其他地方省时间：比如将多个小算子融合成大算子，减少CPU和GPU间传数据的时间。

通过这些优化，在通道数扩展四倍的情况下，额外时间开销只有6.7%。

如果硬要做个比喻：

有时候，一个巧妙的数学约束，效果可能比单纯堆算力、堆数据还要好。

如果这篇文章对你有帮助，欢迎点赞、在看、转发给身边对AI感兴趣的朋友！有任何问题，欢迎在评论区交流。