DeepSeek新论文火了:不用卷算力,一个数学约束让大模型更聪明

DeepSeek新论文火了:不用卷算力,一个数学约束让大模型更聪明

想象这样一个场景:几个人围成一圈玩传话游戏,第一个人悄悄说一句话,依次往后传。如果中间有个人声音太小,后面的人就听不清了,信息就此中断。

这恰恰是大模型训练过程中曾面临的困境。而这,正是我们今天故事的开端。

一、残差网络:给信号留条"保底通道"

我们知道,像DeepSeek、GPT这样的大模型,本质上是在模仿大脑神经元的连接方式------一个超大的计算图。

数据输入后,会逐层流过多个神经元层,每层都对数据进行处理,最终输出结果。每一层其实就是一堆数学运算,输入X,输出Y,我们可以把它抽象成一个函数:Y = F(X)。

问题来了:随着层数越来越多,如果某一层输出的数值接近零,信号就会越来越弱,像那个传话游戏中声音太小的人,导致信息在传递中消失。

于是,大佬们想出了一个办法:让每层输出时都加上这一层的原始输入

用公式表示就是:Y = F(X) + X

这样一来,就算F(X)处理有问题,至少还有个保底的原始输入X。信号可以安全地从浅层传到深层,不会在中间消失。

这就是残差网络(ResNet)。

二、超连接(HC):从单车道到多车道

残差网络解决了稳定性问题,让模型能堆到上百层。但这只是让模型能"跑起来",如何让它更"聪明"呢?

就像人想变聪明,要么学得更多,要么想得更多。对于大模型来说,"学得更多"就是增加投喂的学习资料,但数据总有上限;"想得更多"则是指层和层之间传递的信息量。

2024年,字节的大佬们在"想得更多"这个方向上发力了。

他们将原本单通道的信号扩展成多通道------通过乘以一个矩阵,把同一份数据在数学上变换成N份不同的表示。这意味着大模型每层都可以从不同角度处理数据,实现了"想得更多"。

这个方案叫超连接(Hyper Connections,简称HC),效果确实明显:模型的推理能力和知识储备都有提升。

但这又带来了新问题。

三、MHC:给多车道加上"交通规则"

HC方案本质上是通过矩阵乘法实现多通道的,每一层都有这样一个矩阵。层数一多,就相当于矩阵连乘,导致数值越乘越大------信号在传播过程中被放大了几千倍。

参数更新的幅度会剧烈震荡,也就是所谓的"梯度爆炸",严重时会导致训练崩溃。

DeepSeek发现了这个问题后,在HC的基础上加了一个限制:要求矩阵的每一行、每一列加起来都等于一

这个特殊矩阵叫双随机矩阵。有了这个约束,连乘后的数值都会被限制在一个合理范围内,不会失控。

这个在HC基础上加入双随机矩阵约束的方案,就是流形约束超连接(Manifold Constraint Hyper Connections,简称MHC)

实验数据证明,在27B参数模型上,MHC的信号放大只有1.6倍,对比HC的高达3000倍,训练过程稳定多了。

四、代价是什么?DeepSeek的优化之道

当然,MHC在HC的基础上多乘了一个双随机矩阵,计算量更大了,耗时也会增加。

DeepSeek的解法是在其他地方省时间:比如将多个小算子融合成大算子,减少CPU和GPU间传数据的时间。

通过这些优化,在通道数扩展四倍的情况下,额外时间开销只有6.7%。


总结一下

如果硬要做个比喻:

  • 残差网络就像一条车道
  • HC将车道加宽成多车道,流量大了但容易失控(飙车)
  • MHC就是加了限速和交通规则,既保证流量又避免失控

有时候,一个巧妙的数学约束,效果可能比单纯堆算力、堆数据还要好。


如果这篇文章对你有帮助,欢迎点赞、在看、转发给身边对AI感兴趣的朋友!有任何问题,欢迎在评论区交流。

相关推荐
freewlt8 分钟前
科技热点速递:AI技术集中爆发
人工智能·深度学习·计算机视觉
驕傲的兎孒8 分钟前
基于 SpringBoot + Vue3 + AI 打造企业级售后服务支持平台 | 实战方案分享
人工智能·spring boot·后端
guoji77889 分钟前
2026年AI编程辅助实战:国内镜像站如何使用Claude提升开发效率?
人工智能·ai编程
程序猿炎义10 分钟前
Agent Skills入门 - Datawhale共学
人工智能
大傻^12 分钟前
Spring AI Alibaba 可观测性实践:AI应用监控与链路追踪
java·人工智能·后端·spring·springaialibaba
星辰yzy13 分钟前
AI 聚合 Token 平台怎么选?我为什么开始长期使用 jige.io
人工智能·语言模型
视***间13 分钟前
京聚全球智,算力观新程——视程空间赴2026北京国际人工智能应用与机器人创新博览会
大数据·人工智能·机器人·边缘计算·ai算力开发板
云烟成雨TD17 分钟前
Spring AI Alibaba 1.x 系列【1】阿里巴巴 AI 生态
java·人工智能·spring
柯儿的天空27 分钟前
【OpenClaw 全面解析:从零到精通】第 005 篇:OpenClaw 在 macOS 上的安装与部署实战
人工智能·macos·自然语言处理·ai作画
JicasdC123asd29 分钟前
感受野CBAM融合卷积改进YOLOv26双重注意力机制与自适应特征增强协同突破
人工智能·yolo·目标跟踪