速通DeepSeek论文mHC:给大模型装上物理阀门的架构革命

文章目录

  • 1、前言
  • [2、背景:从残差连接到 mHC 的演进之路](#2、背景:从残差连接到 mHC 的演进之路)
    • [2.1 没有残差连接的世界:梯度消失](#2.1 没有残差连接的世界:梯度消失)
      • [2.1.1 反向传播详解](#2.1.1 反向传播详解)
    • [2.2 残差连接:那个救命的"1"](#2.2 残差连接:那个救命的"1")
    • [2.3 矩阵变换的几何本质:不停地"扭曲"空间](#2.3 矩阵变换的几何本质:不停地"扭曲"空间)
      • [2.3.1 具体理解](#2.3.1 具体理解)
      • [2.3.2 为什么扭曲有用?](#2.3.2 为什么扭曲有用?)
    • [2.4 HC(超连接):打破信息瓶颈](#2.4 HC(超连接):打破信息瓶颈)
      • [2.4.1 信息瓶颈问题](#2.4.1 信息瓶颈问题)
      • [2.4.2 HC 的做法](#2.4.2 HC 的做法)
      • [2.4.3 HC 的致命问题](#2.4.3 HC 的致命问题)
    • [2.5 核心矛盾与 mHC 的诞生](#2.5 核心矛盾与 mHC 的诞生)
  • [3、核心创新:mHC 流形约束超连接](#3、核心创新:mHC 流形约束超连接)
    • [3.1 核心思想](#3.1 核心思想)
    • [3.2 为什么这么设计](#3.2 为什么这么设计)
      • [3.2.1 解耦"记忆容量"与"计算成本"](#3.2.1 解耦"记忆容量"与"计算成本")
      • [3.2.2 解决训练不稳定性](#3.2.2 解决训练不稳定性)
      • [3.2.3 引入物理与几何的先验](#3.2.3 引入物理与几何的先验)
  • 4、关键数学概念
    • [4.1 双随机矩阵:完美的任务分配](#4.1 双随机矩阵:完美的任务分配)
      • [4.1.1 普通矩阵(乱套了)](#4.1.1 普通矩阵(乱套了))
      • [4.1.2 双随机矩阵(完美守恒)](#4.1.2 双随机矩阵(完美守恒))
    • [4.2 核心公式 Eq.6:mHC 的"宪法"](#4.2 核心公式 Eq.6:mHC 的"宪法")
    • [4.3 非负性约束的重要性](#4.3 非负性约束的重要性)
    • [4.4 什么是凸组合(Convex Combination)](#4.4 什么是凸组合(Convex Combination))
      • [4.4.1 线性组合 vs 凸组合](#4.4.1 线性组合 vs 凸组合)
      • [4.4.2 mHC 为什么选凸组合](#4.4.2 mHC 为什么选凸组合)
    • [4.5 Softmax:把任意数字变成概率分布](#4.5 Softmax:把任意数字变成概率分布)
      • [4.5.1 Softmax 公式](#4.5.1 Softmax 公式)
      • [4.5.2 为什么 Softmax 不够用](#4.5.2 为什么 Softmax 不够用)
      • [4.5.3 Sinkhorn 的优势](#4.5.3 Sinkhorn 的优势)
  • [5、Sinkhorn-Knopp 算法:矩阵平衡术](#5、Sinkhorn-Knopp 算法:矩阵平衡术)
    • [5.1 一句话解释](#5.1 一句话解释)
    • [5.2 手动演算示例](#5.2 手动演算示例)
    • [5.3 为什么不用 Softmax?](#5.3 为什么不用 Softmax?)
  • 6、残差连接层的数据流
    • [6.1 数据形式](#6.1 数据形式)
    • [6.2 三个关键映射矩阵](#6.2 三个关键映射矩阵)
  • 7、三大工程优化策略
    • [7.1 算子融合 (Kernel Fusion)](#7.1 算子融合 (Kernel Fusion))
      • [7.1.1 问题背景](#7.1.1 问题背景)
      • [7.1.2 解决方案](#7.1.2 解决方案)
    • [7.2 选择性重计算 (Selective Recomputing)](#7.2 选择性重计算 (Selective Recomputing))
      • [7.2.1 问题背景](#7.2.1 问题背景)
      • [7.2.2 两种极端方案](#7.2.2 两种极端方案)
      • [7.2.3 mHC 的聪明做法](#7.2.3 mHC 的聪明做法)
    • [7.3 DualPipe 通信重叠](#7.3 DualPipe 通信重叠)
      • [7.3.1 问题背景](#7.3.1 问题背景)
      • [7.3.2 DualPipe 的做法](#7.3.2 DualPipe 的做法)
      • [7.3.3 最终效果](#7.3.3 最终效果)
  • 8、三代架构对比
  • 9、深层追问:为什么这些架构创新能让模型学得更好?
    • [9.1 工厂类比](#9.1 工厂类比)
    • [9.2 更丰富的输入信息](#9.2 更丰富的输入信息)
    • [9.3 更有效的梯度回传](#9.3 更有效的梯度回传)
    • [9.4 约束本身也是一种"知识"](#9.4 约束本身也是一种"知识")
  • 10、实验结果与核心突破
    • [10.1 实验配置](#10.1 实验配置)
    • [10.2 关键指标](#10.2 关键指标)
    • [10.3 核心突破](#10.3 核心突破)
  • 11、总结
    • [11.1 关键公式推导脉络](#11.1 关键公式推导脉络)
    • [11.2 一句话概括](#11.2 一句话概括)
    • [11.3 后续发展](#11.3 后续发展)

🍃作者介绍:25届双非本科网络工程专业,阿里云专家博主,深耕 AI 原理 / 应用开发 / 产品设计。前几年深耕Java技术体系,现专注把 AI 能力落地到实际产品与业务场景。

🦅个人主页:@逐梦苍穹

📕所属专栏:🌩 专栏人工智能; 🌩 专栏速通人工智能相关论文

🐼GitHub主页:https://github.com/XZL-CODE

✈ 您的一键三连,是我创作的最大动力🌹

论文标题 : mHC: Manifold-Constrained Hyper-Connections
arXiv : https://arxiv.org/abs/2512.24880 (2025年12月31日提交)
通讯作者: 梁文锋(DeepSeek 创始人兼 CEO)

1、前言

DeepSeek 最新发布的 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)论文,做了一件非常有意思的事情:给大模型的"神经网络"装上了符合物理守恒定律的"智能阀门"

用一句话概括:mHC 把大模型的"单车道"升级成了"多车道高速公路",并给每条车道装上了流量控制系统,让信息流巨大但绝不拥堵失控。

这篇文章将带你彻底搞懂:

  • 残差连接为什么重要,没有它会怎样
  • HC(超连接)解决了什么问题,又带来了什么麻烦
  • mHC 如何用数学手段(双随机矩阵 + Sinkhorn-Knopp 算法)把问题解决
  • 为什么这些"复杂的变换"能让模型学得更好

2、背景:从残差连接到 mHC 的演进之路

2.1 没有残差连接的世界:梯度消失

在残差连接发明之前(2015 年以前),深层神经网络面临一个致命问题。

假设网络有 100 层,每层做一个变换 F F F。没有残差的话,信号是串行嵌套的:

输出 = F 100 ( F 99 ( ... F 2 ( F 1 ( x ) ) ...   ) ) \text{输出} = F_{100}(F_{99}(\dots F_2(F_1(x))\dots)) 输出=F100(F99(...F2(F1(x))...))

训练神经网络靠的是反向传播 -- 从最后一层往回算梯度,告诉每一层"你该怎么调整参数"。根据链式法则,梯度要把 100 个导数连乘。只要每个导数稍微小于 1(比如 0.9),连乘 100 次:

0.9 100 ≈ 0.0000265 0.9^{100} \approx 0.0000265 0.9100≈0.0000265

梯度几乎归零,前面的层根本收不到有效的学习信号 -- 这就是梯度消失

实际后果 :2015 年以前,网络超过 20 层就基本训不动了。何恺明等人的实验表明,56 层的网络反而比 20 层的更差 -- 这不是过拟合,是根本没学会。

2.1.1 反向传播详解

很多人对"反向传播"概念模糊,这里详细解释一下:

前向传播:数据从输入层流向输出层,每一层做变换,最后得到预测结果和损失值(Loss)。

反向传播:从 Loss 开始,根据链式法则,一层一层往回算"这个参数对 Loss 的影响有多大"(也就是梯度)。得到梯度后,按照"负梯度方向"调整参数,让 Loss 变小。

为什么需要反向传播? 因为神经网络有百万甚至数十亿个参数,没法穷举哪个参数组合最好。反向传播是高效的"指引"------告诉每个参数"你该往哪个方向调、调多少"。

2.2 残差连接:那个救命的"1"

2015 年,ResNet 提出了一个极其简单但深刻的改动 -- 残差连接

y = x + F ( x ) y = x + F(x) y=x+F(x)

就是在每一层的输出上,把输入直接加回去

为什么这个简单的加法能解决问题?对 x x x 求导:

∂ y ∂ x = 1 + ∂ F ∂ x \frac{\partial y}{\partial x} = 1 + \frac{\partial F}{\partial x} ∂x∂y=1+∂x∂F

关键在那个 "1" 。不管 F F F 的梯度多小多烂,梯度至少有一条直通高速路(恒等映射),永远不会归零。这就是为什么 ResNet 能训练 152 层甚至 1000 层的网络。

一句话:残差连接不是让模型变聪明,而是让深层网络"能训练"。它解决的是生存问题,不是能力问题。

2.3 矩阵变换的几何本质:不停地"扭曲"空间

要理解神经网络为什么能学习,首先要理解矩阵变换的本质是什么

矩阵的变换,其实就是不停地在"扭曲"空间。

2.3.1 具体理解

想象一张方格纸,上面画着整齐的网格线。当你用一个矩阵去乘这张纸上的每个点:

  • 原本垂直的线可能变斜了(剪切变换)
  • 原本等距的格子可能被拉长或压扁(缩放变换)
  • 整个空间可能被旋转(旋转变换)

神经网络的每一层,本质上就是对数据空间做一次这样的"扭曲"。

2.3.2 为什么扭曲有用?

假设你要分类猫和狗的图片。在原始像素空间里,猫和狗的数据点是混在一起的------它们可能只差几个像素值。

但经过神经网络100层的连续"扭曲"后:

  • 所有"猫"的数据点被挤到了空间的一个角落
  • 所有"狗"的数据点被挤到了另一个角落
  • 中间有一条清晰的"分界线"

深度学习的本质 = 找到一系列"扭曲"(矩阵变换),把原本纠缠在一起的数据,拉扯到可以被简单分开的位置。

2.4 HC(超连接):打破信息瓶颈

残差连接解决了"能训练"的问题,但它有一个本质瓶颈 -- 所有信息都挤在一条管道里

2.4.1 信息瓶颈问题

想象大模型在处理一段文本,不同层捕捉到了不同维度的信息:

  • 第 1 层发现了"这句话的主语是'猫'"
  • 第 3 层发现了"语气是疑问句"
  • 第 7 层发现了"涉及因果推理"

这些信息全部要塞进同一条管道 往下传。到了第 50 层,这条管道里的信息是高度压缩、互相覆盖的。模型必须用同一个向量同时表达语法、语义、逻辑等所有信息 -- 带宽不够

2.4.2 HC 的做法

HC(Hyper-Connections,超连接)把 1 条管道扩成 n n n 条(比如 4 条),不同管道可以分工

  • 管道 1 专门传语法信息
  • 管道 2 专门传语义信息
  • 管道 3 专门传上下文记忆
  • 管道 4 专门传推理中间状态

层与层之间有一个混合矩阵 H \mathcal{H} H,让管道之间可以交换信息。

HC 的意义:不是让每一层"算得更多",而是让信息"带得更多"。 计算层(Attention/FFN)没变大,但信息高速公路变宽了。

2.4.3 HC 的致命问题

因为缺乏约束,混合矩阵 H \mathcal{H} H 完全自由学习,会让水压失控。标准 HC 的复合映射增益在 27B 模型上可达 3000 倍,导致大模型训练直接崩溃。

2.5 核心矛盾与 mHC 的诞生

三代架构的递进关系:

架构 能训练深网络? 信息带宽? 训练稳定?
无残差 不能 - -
ResNet 窄(1 条流) 稳定
HC 宽(n 条流) 不稳定
mHC 宽(n 条流) 稳定

核心矛盾:如何在让模型"脑容量"变大的同时,不让它"精神错乱" -- 这就是 mHC 要解决的问题。


3、核心创新:mHC 流形约束超连接

DeepSeek 的 mHC 做的核心事情是:保留宽车道,但加上了严苛的交通管制(流形约束)。

3.1 核心思想

  • 将混合矩阵强制限制在 Birkhoff 多面体(双随机矩阵的集合)这个"流形"上
  • 强制要求神经网络在混合信息时,流进多少信息,就必须流出多少信息,实现"信息守恒"
  • 用 Sinkhorn-Knopp 算法给混合矩阵加"紧箍咒",把它变成双随机矩阵

3.2 为什么这么设计

3.2.1 解耦"记忆容量"与"计算成本"

传统模型要增加信息容量,就得把整个模型做宽,计算量暴涨。mHC 的设计巧妙在于:路修得很宽( n n n 倍残差流),但收费站(Attention/FFN 计算层)没变大

  • 残差流变宽了,模型能"记住"或"携带"更多的上下文信息
  • 因为计算层只处理压缩后的数据,计算成本几乎没增加(只增加了 6.7%)

3.2.2 解决训练不稳定性

之前的 HC 破坏了恒等映射属性。mHC 通过"流形约束"强行恢复了恒等映射属性。无论网络多深,信号的能量在传播过程中是守恒的。

3.2.3 引入物理与几何的先验

底层哲学: "将物理定律写入神经网络结构"

  • 以前的 AI:通过大量数据暴力喂养,让模型自己去瞎蒙参数
  • 流形约束的 AI:用数学手段强行规定它必须在特定的几何结构上运行

4、关键数学概念

4.1 双随机矩阵:完美的任务分配

我们来看一个**"任务分配"**的场景。

假设有 3 个人(A、B、C) ,要把手里的工作完全移交给 3 个接班人(X、Y、Z)

4.1.1 普通矩阵(乱套了)

  • A 把 50% 给 X,50% 给 Y(OK)
  • B 把 100% 都给 X
  • C 把 100% 也给 X

结果 : 接班人 X 崩溃了(收到 250% = 梯度爆炸 );接班人 Z 没事干(收到 0% = 梯度消失

4.1.2 双随机矩阵(完美守恒)

DeepSeek 强制要求这个交接单必须同时满足:

  • 规定 1(行和为 1): 每个人必须把 100% 的活派出去
  • 规定 2(列和为 1): 每个接班人收到的活加起来恰好是 100%

4.2 核心公式 Eq.6:mHC 的"宪法"

P M r e s ( H l r e s ) : = { H l r e s ∈ R n × n ∣ H l r e s 1 n = 1 n , 1 n ⊤ H l r e s = 1 n ⊤ , H l r e s ⩾ 0 } \mathcal{P}{\mathcal{M}^{\mathrm{res}}}(\mathcal{H}{l}^{\mathrm{res}}) := \left\{\mathcal{H}{l}^{\mathrm{res}} \in \mathbb{R}^{n \times n} \mid \mathcal{H}{l}^{\mathrm{res}} \mathbf{1}{n} = \mathbf{1}{n},\ \mathbf{1}{n}^{\top} \mathcal{H}{l}^{\mathrm{res}} = \mathbf{1}{n}^{\top},\ \mathcal{H}{l}^{\mathrm{res}} \geqslant 0 \right\} PMres(Hlres):={Hlres∈Rn×n∣Hlres1n=1n, 1n⊤Hlres=1n⊤, Hlres⩾0}

三大铁律:

公式 数学含义 人话
H 1 = 1 \mathcal{H} \mathbf{1} = \mathbf{1} H1=1 行和为 1 必须分完,不能私藏
1 ⊤ H = 1 ⊤ \mathbf{1}^{\top} \mathcal{H} = \mathbf{1}^{\top} 1⊤H=1⊤ 列和为 1 不能累死人,也不能闲死人
H ⩾ 0 \mathcal{H} \geqslant 0 H⩾0 非负性 不能有"负任务"捣乱

4.3 非负性约束的重要性

如果去掉非负约束(像普通 HC 那样),允许矩阵元素取负值,会引发**"10-9 陷阱"**:

  • mHC(有约束) : 0.5 + 0.5 = 1 0.5 + 0.5 = 1 0.5+0.5=1,信号平稳
  • HC(无约束) : 10000 + ( − 9999 ) = 1 10000 + (-9999) = 1 10000+(−9999)=1,虽然结果也是 1,但中间过程涉及巨大的正负数

负值的危害:

  1. 梯度爆炸: 权重系数的范数极大,反向传播时梯度疯狂放大
  2. 信号对冲: 大数减大数带来巨大浮点精度误差
  3. 破坏物理直觉: 负权重会主动破坏其他通道的信息

4.4 什么是凸组合(Convex Combination)

前面提到 mHC 要求的是"凸组合"而非"线性组合",这个概念很关键。

4.4.1 线性组合 vs 凸组合

线性组合 : r e s u l t = α ⋅ A + β ⋅ B result = \alpha \cdot A + \beta \cdot B result=α⋅A+β⋅B,其中 α , β \alpha, \beta α,β 可以是任意实数(包括负数)。

  • 结果可以跑到"无限远"
  • 比如: 2 A + ( − 1 ) B 2A + (-1)B 2A+(−1)B 意味着"两倍的 A 减去一倍的 B"
  • 问题:物理上没有意义(怎么"减去"一份信息?)

凸组合 : r e s u l t = α ⋅ A + β ⋅ B result = \alpha \cdot A + \beta \cdot B result=α⋅A+β⋅B,但要求 α ≥ 0 \alpha \geq 0 α≥0, β ≥ 0 \beta \geq 0 β≥0,且 α + β = 1 \alpha + \beta = 1 α+β=1。

  • 结果只能落在 A 和 B 之间
  • 比如: 0.7 A + 0.3 B 0.7A + 0.3B 0.7A+0.3B 意味着"70% 的 A 混合 30% 的 B"
  • 几何上:结果只能在 A、B 连线段上

4.4.2 mHC 为什么选凸组合

mHC 要求混合矩阵是双随机矩阵 (非负 + 行列和为 1),这自然形成了凸组合

这样做的好处:

  • 信号不会跑飞:混合后的结果始终在"合理范围"内
  • 信息守恒:你混进去多少,就只能拿出来多少
  • 训练稳定:不会出现"10 - 9 = 1"这种数值不稳定的情况

4.5 Softmax:把任意数字变成概率分布

Softmax 是神经网络中最常用的"归一化"操作之一,在这里解释一下它的原理。

4.5.1 Softmax 公式

softmax ( x i ) = e x i ∑ j e x j \text{softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} softmax(xi)=∑jexjexi

步骤

  1. 对每个输入取指数 e x e^x ex(保证结果为正)
  2. 除以所有指数的和(保证结果和为 1)

4.5.2 为什么 Softmax 不够用

Softmax 只保证行和为 1 ,但不管列和

如果所有老板都想把最好的任务给同一个明星员工,Softmax 完全允许这种情况。结果:明星员工累死,其他员工闲死------这就是信息不均衡。

4.5.3 Sinkhorn 的优势

Sinkhorn 在 Softmax 的基础上,额外强制列和也为 1。这就实现了真正的"信息守恒":每个来源分配完自己的份额,每个接收者也恰好收到应得的份额。


5、Sinkhorn-Knopp 算法:矩阵平衡术

Sinkhorn-Knopp 算法(1967 年提出)是 mHC 的关键实现手段。

5.1 一句话解释

它是一个**"强行平衡器"**。把一个乱七八糟的矩阵,通过不断的"横着捏一下、竖着捏一下",最终变成行和为 1、列和也为 1 的完美矩阵。

就像揉面团:不停地左右挤、上下挤,最后面团就完美地填满模具。

5.2 手动演算示例

假设有两个老板(A 和 B),要给两个员工(小王和小李)发年终奖。

初始矩阵(乱七八糟):

小王 小李 行和
老板 A 10 10 20
老板 B 2 8 10

第一步:行归一化 -> 老板这边平了,但员工这边乱了
第二步:列归一化 -> 员工平了,但老板又歪了(但误差从 20 降到了 1.09)
重复 20 次 -> 误差从 1.09 -> 1.01 -> 1.001 -> ... -> 1.0

5.3 为什么不用 Softmax?

  • Softmax 的局限 : 只能保证行和为 1 ,但不管列(可能所有老板都把钱给了同一个明星员工)
  • Sinkhorn 的优势 : 同时锁死行和列,实现真正的"信息守恒"

6、残差连接层的数据流

mHC 对传统的"一条线"传输做了扩容。

6.1 数据形式

  • 传入 : 传统残差流是 1 × C 1 \times C 1×C,mHC 扩展为 n × C n \times C n×C ( n = 4 n=4 n=4 条并行流)
  • 传出 : 保持 n × C n \times C n×C 形式,继续传给下一层

6.2 三个关键映射矩阵

矩阵 作用 说明
H r e s H_{res} Hres 残差混合 在 n 个流之间混合,约束为双随机矩阵
H p r e H_{pre} Hpre 收缩/聚合 把 n × C n \times C n×C 压缩成 1 × C 1 \times C 1×C,喂给计算单元
H p o s t H_{post} Hpost 扩张/广播 把 1 × C 1 \times C 1×C 扩张回 n × C n \times C n×C,加回残差流

7、三大工程优化策略

理论很美,但参数变多了 4 倍,怎么不慢?DeepSeek 用了三招解决"富贵病":

7.1 算子融合 (Kernel Fusion)

核心目的:减少搬运数据的次数

7.1.1 问题背景

GPU 的计算单元(ALU)速度极快,但显存(HBM)读写速度是瓶颈。如果每个小操作都要:

  1. 从显存读数据
  2. 算一下
  3. 写回显存
  4. 下一个操作再读出来...

那么大量时间浪费在"搬运数据"上,而不是真正的计算。

7.1.2 解决方案

将 RMSNorm、矩阵乘法、Sinkhorn-Knopp 合并成一个大 Kernel

  • 数据从显存读入 GPU 高速缓存
  • 在缓存里连续完成所有计算
  • 最后一次性写回显存

类比:就像做菜时"一锅出"------所有配料一次性放进锅里炒完,而不是每放一个配料就端锅去洗一次。

7.2 选择性重计算 (Selective Recomputing)

核心目的:用计算时间换显存空间

7.2.1 问题背景

反向传播需要用到前向传播的中间结果。如果 100 层网络把所有中间结果都存下来,显存会爆炸。

7.2.2 两种极端方案

  • 方案 A(全存):100 层 = 存 100 份中间结果 -> 显存爆炸
  • 方案 B(全算):什么都不存,反向传播时从头重算 -> 时间爆炸(计算量翻 100 倍)

7.2.3 mHC 的聪明做法

分类处理

  • 贵的(存):Attention 输入、每个 Block 的起点 -> 这些重算代价很高,必须存
  • 便宜的(扔) : H r e s H_{res} Hres, H p r e H_{pre} Hpre, H p o s t H_{post} Hpost -> 这些矩阵很小,算得很快,现用现算

结果:显存省了,时间只多一点点。

7.3 DualPipe 通信重叠

核心目的:别让 GPU 闲着等快递

7.3.1 问题背景

大模型训练需要多张 GPU 配合,GPU 之间需要互相传数据(通信)。

串行做法 :先算完 -> 再传 -> 等传完 -> 再算下一步
问题:大量时间在"等"和"传",GPU 算力被浪费!

7.3.2 DualPipe 的做法

把计算任务分成两类:

  • 高优先级(急着传的):MLP 部分,计算完要立刻传给下一个 GPU
  • 低优先级(不急着传的):Attention 部分,可以边算边等

时间安排

  1. 先算高优先级任务,算完立刻开始传输
  2. 传输的同时,去算低优先级任务
  3. 低优先级算完时,传输也差不多完成了

结果:计算和通信同时进行,GPU 几乎没有空闲时间!

7.3.3 最终效果

模型加宽了 4 倍,训练时间只增加了 6.7%------这就是极致工程优化的威力。


8、三代架构对比

特性 ResNet HC mHC
公式 x + F ( x ) x + F(x) x+F(x) H x + ... \mathcal{H} x + \dots Hx+... P ( H ) x + ... \mathcal{P}(\mathcal{H}) x + \dots P(H)x+...
混合矩阵 固定单位矩阵 完全自由学习 双随机矩阵
取值范围 0 和 1 ( − ∞ , + ∞ ) (-\infty, +\infty) (−∞,+∞) [ 0 , 1 ] [0, 1] [0,1]
混合方式 不混合 线性组合(允许 10-9=1) 凸组合(只允许 0.5+0.5=1)
复合映射增益 1.0 可达 3000x 1.0 ~ 1.6x
结果 稳定但弱 强但不稳定 既强又稳定

9、深层追问:为什么这些架构创新能让模型学得更好?

很多人直觉上困惑:"把结构搞复杂了,凭什么就学得好了?"

答案是:这些变换本身不产生"智能",它们解决的是信息流通的问题。

9.1 工厂类比

假设有一个工厂(模型),100 个车间串联(100 层),每个车间里有工人在加工零件(Attention/FFN 做计算)。

车间的工人没变(计算层没变大),变的是车间之间的传送带系统(残差流)。

  • 没有传送带(无残差):零件搬到第 50 个车间时已经丢了
  • 一条传送带(ResNet):零件顺畅传到尾,但带子窄,零件挤在一起
  • 多条智能传送带(mHC):不同零件走不同带,互不干扰

9.2 更丰富的输入信息

传统残差网络中,第 50 层收到的是前 49 层加工后混在一起的一个向量。很多早期层的有用信号已被冲淡。

多流残差让不同类型的信息独立保留。第 50 层从 4 条管道聚合信息,比从 1 条管道提取要丰富得多。

9.3 更有效的梯度回传

多条残差流意味着梯度也有多条回传路径。每一层能收到更准确的梯度信号,参数更新方向更准确。

9.4 约束本身也是一种"知识"

双随机矩阵的约束看似"限制",实际是在注入先验知识 。就像沿着河床找水源比在沙漠里乱找效率高。约束是指南针,减少了模型需要探索的参数空间。

核心结论:不是"变换更复杂"让模型变好,而是"信息流通更高效"让模型变好。


10、实验结果与核心突破

10.1 实验配置

  • 模型规模:3B、9B 和 27B 参数的 MoE 模型
  • 残差流展开率: n = 4 n = 4 n=4
  • 架构特性:分组查询注意力(GQA)、前置规范化 Transformer

10.2 关键指标

指标 基线 HC mHC 改进
BBH 48.9% 51.0% +2.1%
DROP - - +2.3%
训练时间开销 - +6.7% 极低代价
最大增益幅度 3000x 1.0~1.6x 训练稳定

10.3 核心突破

  1. 重新定义"深度"的有效性:只要信息流的组织方式正确,不用增加计算量,光优化信息的"流动管道"就能大幅提升能力
  2. 解决"超连接"无法扩展的难题:第一次证明这种架构可以扩展到千亿参数级别且训练稳定
  3. "信息守恒"作为架构定律:将物理守恒定律写进神经网络结构
  4. 极致的工程优化:不是纸上谈兵,可直接部署在工业级训练中

11、总结

11.1 关键公式推导脉络

  1. ResNet : y = x + F ( x ) y = x + F(x) y=x+F(x) -- 稳定,但表达力弱
  2. HC : x ′ = H x + ... x' = \mathcal{H} x + \dots x′=Hx+... -- 表达力强,但不稳定
  3. mHC : 将 H \mathcal{H} H 投影到 Birkhoff 多面体上 -- 既稳定又强大
  4. 实现: Sinkhorn-Knopp 算法 -- 横拍竖拍 20 次

11.2 一句话概括

mHC 就是给大模型的"神经网络"装上物理阀门。它证明了只要拓扑结构合理,不需要单纯堆参数,也能大幅提升模型能力。这是"几何与物理指导 AI"的胜利。

11.3 后续发展

该方向正在活跃发展中,已有 mHC-lite 等改进版本出现(arXiv: 2601.05732),进一步降低计算开销。


如果这篇文章对你有帮助,欢迎点赞、收藏、关注,你的支持是我持续创作的最大动力!

相关推荐
运维小欣2 小时前
Agentic AI 与 Agentic Ops 驱动,智能运维迈向新高度
运维·人工智能
Honmaple2 小时前
OpenClaw 迁移指南:如何把 AI 助手搬到新电脑
人工智能
wenzhangli73 小时前
Ooder A2UI 第一性原理出发 深度解析核心逻辑
人工智能·开源
网络安全研究所3 小时前
AI安全提示词注入攻击如何操控你的智能助手?
人工智能·安全
数据猿3 小时前
硬盘价格涨疯了,AI存储何去何从?
人工智能
zhangfeng11333 小时前
氨基酸序列表示法,蛋白质序列表达 计算机中机器学习 大语言模型中的表达,为什么没有糖蛋白或者其他基团磷酸化甲基化乙酰化泛素化
人工智能·机器学习·语言模型
陈天伟教授3 小时前
人工智能应用- 语言理解:06.大语言模型
人工智能·语言模型·自然语言处理
海心焱3 小时前
安全之盾:深度解析 MCP 如何缝合企业级 SSO 身份验证体系,构建可信 AI 数据通道
人工智能·安全
2501_945318493 小时前
AI证书能否作为招聘/培训标准?2026最新
人工智能