不靠模仿的第三条路:DeepSeek 凭数学推导,为何撞上 Google 的工程直觉?

Google 在 2025 年 6 月推出 Gemma 3n 时,技术圈的反响截然两极。

工程团队为其在移动端的极致轻量化折服------2GB 内存即可运行 80 亿参数模型,多模态推理流畅如常;而学术界却对 PLE(Per-Layer Embeddings)与 AltUp 等非传统设计心存疑虑,视其为为适配硬件而强行压缩的工程捷径。

直到半年后,2026 年 1 月,DeepSeek 连续发布 mHC与 Engram两篇奠基性论文。

深入剖析其核心------U 型 Scaling Law 与流形约束(Manifold Constraints)------我们清晰看到:

DeepSeek 通过数学推导得出的最优架构范式,竟与 Google 半年前凭直觉构建的 Gemma 3n 形成惊人共振。

Gemma 3n 的 PLE,其本质正是 DeepSeek 在 Engram 中证明高效的"条件记忆"机制:将静态知识嵌入低维可查表结构,剥离推理负担;

Gemma 3n 的 AltUp,则在实现层面构成了 mHC 理论中"宽残差流稀疏扩展"的一个具体实例:以非对称参数更新策略,在不增加显存开销的前提下,稳定扩展信息通路。

这绝非偶然的趋同,而是架构演进的必然交汇。DeepSeek 的理论,为 Gemma 3n 的工程选择提供了前所未有的数学合法性。

Google 用直觉踩中了最优解的脉搏,而 DeepSeek 用公式还原了它的证明。

本文将以 DeepSeek 的新理论为透镜,解构 Gemma 3n 的黑箱设计,揭示两个顶尖团队如何在不同时间、不同路径上,共同开辟了大模型架构的第三条道路------一条不依赖纯参数堆砌,而以"记忆分离"与"约束稳定"为支柱的高效之路。

更多AI大模型学习视频及资源,都在智泊AI。

01.静态记忆的Scaling Law

Gemma 3n 架构中最引人争议的创新,体现在其 Embedding 的实现机制上。

与传统 Transformer 仅在输入与输出端部署 Embedding 的设计不同,Gemma 3n 为每一层都配置了独立的静态 Embedding 表(本文将这一特性命名为 PLE,Per-Layer Embeddings)。

据 Google 的工程阐释,此举旨在协同 NPU/CPU 的异构计算能力,借助 Conditional parameter loading 技术,将超过 2B 的 PLE 参数动态卸载至系统内存,从而确保核心的 MLP 与 Attention 模块始终在 NPU 上保持高效运行。

图1. Gemma 3n 的参数分布与有效内存负载对比。

该图所示数据表明,借助 PLE 技术,模型能够将绝大部分参数迁移至系统内存,仅在计算单元中保留关键参数,从而达成卓越的参数利用效率。

DeepSeek 的 Engram 论文不仅以实证验证了该架构可显著降低内存开销,更通过结构清晰的图示,系统性地阐明了其背后的理论原型。

1.1 机理还原

Engram 不是传统意义上的 N-gram 统计表,而是一个具备可微分特性的神经模块。

DeepSeek 在论文开篇即提出其核心思想:对经典的 N-gram 查表机制进行神经化重构,使其能够作为‌条件记忆‌(Conditional Memory)无缝嵌入深度神经网络架构之中。

图2. Engram 的概念模型。它展示了如何将离散的 N-gram 统计信息转化为可微的 Embedding 查找操作,从而弥补 Transformer 在知识检索上的短板。

图3. Engram 模块的集成架构示意图。左侧为标准 Transformer 层(计算),右侧为 Engram 模块(存储)。

通过简单的查表(Lookup)和投影(Projection),静态记忆被无缝融入到神经网络的隐状态流中。这正是 Gemma 3n PLE 机制的数学解剖图。

1.2 寻找 Loss 的最低点:U 型曲线

在把握架构本质后,DeepSeek 进一步凝练出 ‌Sparsity Allocation‌(稀疏分配)这一核心议题。

基于海量实验,DeepSeek 揭示:当模型总参数规模恒定时,‌静态记忆参数‌(Engram/PLE)与‌动态计算参数‌(MLP/Attention)之间的配比,成为左右模型表现的关键因子。

观测到的验证集 Loss 曲线,清晰呈现出典型的 ‌U 型 Scaling Law‌,随静态参数比例上升而先降后升。

量化结果指出,最优静态参数占比并非零值,而是稳定收敛于 ‌10% -- 30%‌ 区间内(具体数值依总参数量而异)。

由此可得:将相当可观的参数资源投向"死记硬背"(查表)机制,非但未造成浪费,反而有效腾挪出神经网络的计算资源,使其更专注应对高阶逻辑推理任务。

图4. 横轴为 Engram(静态参数)占比,纵轴为 Validation Loss。

可以看到曲线呈现清晰的 U 型,最低点并非纯 MLP 模型,而是混合架构。这从理论上背书了 Gemma 3n 分配大量参数给 PLE 的合理性。

1.3 层级化是关键

Gemma 3n 的 PLE 以分层挂载(Per-Layer)为核心设计,这一架构选择并非随意,而是源于 DeepSeek 在 Engram 论文中揭示的深层规律:他们不仅验证了可行性,更明确了实现的必要路径。

在 Engram 的消融实验中,插入位置被证明是性能的关键变量:

若将查表机制仅置于 Input Layer(Layer 0),如同传统 N-gram 模型那样,模型尚缺乏充分的语义上下文支撑有效门控(Gating),因而对整体性能的增益几乎可以忽略。

唯有将 Engram 置于网络中间层,借助深层架构所构建的 Context 来引导静态知识的精准检索与动态融合,方能显著压低 PPL(困惑度)。

这正是 Gemma 3n 必须将 PLE 复杂化、并分散部署于每一个 Transformer Block 的根本原因。

从计算机制上看,DeepSeek 强调 Engram 的本质优势在于上下文感知门控(Context-aware Gating)。

其采用了一种高效率的对数概率融合策略:直接将 Engram 查表所得的 Logits,经由门控权重加权后,线性叠加至神经网络输出的 Logits 上。

该设计彻底规避了繁琐的概率插值运算,与 Gemma 3n 在推理阶段"并行计算神经网络、实时查表、最终加权融合"的工程实践高度一致。

图5. Engram 门控机制的可视化。红色区域表示门控激活,意味着模型在处理特定词组(如实体名)时,会高度依赖静态记忆表的查表结果,而非神经网络的推理

02.宽度的边界

除了记忆之外,Gemma 3n 的另一显著特征是其"宽"性。为实现端侧的并行加速,业界普遍推测其采用了类似 AltUp (Alternating Updates) 的机制以拓展模型宽度。

尽管 DeepSeek 的 mHC 论文聚焦于更普适的超宽网络训练议题,其理论框架却精准刻画了 Gemma 3n 宽架构所遵循的设计边界。

2.1 什么是宽网络及其代价?

DeepSeek 在论文开篇定义了 Hyper-Connections (HC),这是一种打破传统残差网络(ResNet)宽度限制的架构。

通过极大地扩展残差流的宽度,模型可以获得极高的并行处理能力和容量。

图6. Hyper-Connections (HC) 架构与传统残差连接的对比。

HC 通过大幅拓宽残差层的宽度以提升模型容量,这一策略与 Gemma 3n 致力于端侧并行计算的架构理念高度契合。

但 DeepSeek 揭示,该设计潜藏一项关键缺陷:当宽度过度扩张时,将扰动恒等映射(Identity Mapping)所依赖的方差稳定性。

若缺乏有效约束,深层网络中的信号方差将迅速膨胀,进而引发 Jacobian 矩阵奇异值分布的全面失衡。

下图清晰展示了这种崩塌现象。

图7. 左图显示普通宽网络随着深度增加,训练 Loss 和梯度迅速发散;右图显示引入流形约束(Manifold Constraint)后,模型训练保持稳定。

2.2 AltUp 的稀疏近似

面对"宽度扩展引发的训练崩塌"这一挑战,Google 在 AltUp 论文中提出了一种极具工程智慧的规避路径。

为同步缓解计算负担与训练不稳的双重困境,AltUp 引入了预测-校正(Predictor-Corrector)框架。

它并未直接执行超宽稠密矩阵的完整运算,而是将高维向量划分为若干 Block。在每轮推理中,先通过轻量预测模块锁定活跃 Block,再仅对这些子集进行实际计算。

这种刻意设计的稀疏性,在工程层面构成了对残差路径能量的物理约束,从而隐式抑制了方差爆炸。这正是"因算力受限而被迫精简,却意外达成稳定提升"的典型工程悖论式突破。

图8. AltUp 的 Predict-and-Compute 流程示意图。原本 d 维的宽向量被隐式操作,通过扩展算子(Up-projection)和稀疏修正来模拟宽网络的效果。

2.3 mHC 的流形约束

DeepSeek 主动迎向这一挑战。mHC 指出,若真欲训练稠密的超宽网络,势必要对权重矩阵施加流形约束。

其本质在于,将权重矩阵投影至 Stiefel 流形()或其它特定流形,以精准调控奇异值的分布形态。

在论文的方法论章节中,DeepSeek 对此过程进行了系统推演:每次参数更新后,均显式引入一步投影操作(如借助 Sinkhorn-Knopp 算法实施归一化),强制将权重矩阵拉回流形约束流形。

该机制主动重塑了权重矩阵的几何结构,使 Jacobian 矩阵的奇异值被约束于 1 附近,从根本上重建了宽网络的恒等映射能力,显著提升训练过程的收敛稳定性。

DeepSeek 的洞见极具前瞻视野:AltUp 实质上是"宽网络"框架下的一种稀疏变体,而 mHC 则构建了操控"宽网络"的普适数学范式。

未来,我们或可彻底摒弃 AltUp 所依赖的复杂稀疏掩码机制,转而直接训练出极宽、极浅、推理效率极高的主干网络。

03.弹性推理的终局

Gemma 3n 的核心技术收官之作,正是 MatFormer。

根据 Gemma 3n Model Overview 文档 ,Google 清晰揭示了其"套娃"架构:‌E4B 模型完整继承了 E2B 模型的所有参数‌。

这一架构的理论根基,源自 MatFormer 论文所提出的 ‌Matryoshka(俄罗斯套娃)范式‌------在训练过程中,不再聚焦于单一规模的模型,而是协同优化一个包含多层次嵌套子模型的超网络。

MatFormer 的突破性贡献,在于对 Transformer Block 内部结构的重构:它引入了‌嵌套前馈网络(Nested FFN)‌,使单个模块可动态适配不同参数规模,实现高效多粒度推理与训练。

图9. MatFormer 的架构原理图。左侧展示了 MatFormer Block 内部的嵌套 FFN 设计,权重矩阵被物理划分为多个层级;右侧展示了训练和推理时的"Mix'n'Match"机制,即不同层级的小模型可以直接从大模型中提取出来使用。

为了让套娃结构中的每一层都能高效运作,MatFormer 在训练中设计了一种独特的联合优化策略。

训练过程中,系统会随机抽取不同的子模型,并针对每个被选中的子网络单独计算损失函数。这一机制的本质,是同步最小化所有嵌套子模型(Sub-models)的总体损失。

该训练范式迫使模型将最基础的通用表征压缩至核心参数区域(如前数百个神经元),而将高维细节信息分配至扩展参数维度。

这也正是 Gemma 3n 能够实现 ‌"Select parameters and assemble models in intermediate sizes"‌,并在 2B 至 4B 参数区间内达成平滑性能伸缩的根本原因。

DeepSeek 的 mHC、Engram 与 Google 的 Gemma 3n,虽诞生于不同阶段,却各自独立破解了端侧 AI 不可能三角的瓶颈。

容量(Capacity)‌:DeepSeek mHC 通过流形约束,成功训练出超宽线性层,并结合 Google AltUp 的稀疏计算架构,化解了大容量需求与有限算力之间的冲突。

记忆(Memory)‌:DeepSeek Engram 展现了静态查表机制的极致效率,协同 Google PLE 的显存卸载方案,突破了海量知识存储与有限显存的限制。

适应性(Adaptability)‌:MatFormer 以嵌套权重结构与联合优化机制,实现了单一模型在异构硬件环境中的动态适配,弥合了模型统一性与硬件碎片化之间的鸿沟。

04.总结

DeepSeek mHC 与 Engram 的问世,为行业划下了一道清晰的分水岭:参数规模的无脑扩张,正逼近其边际收益的极限。

Google 于 2025 年在 Gemma 3n 上实证了"计算与存储分离"在工程落地层面的可行性;而 DeepSeek 在 2026 年初,则以严谨的数学推演揭示:这条路径不仅可行,更蕴含更高的运算效率。

二者异曲同工,共同指向一个趋势------端侧模型的架构正经历根本性重构。它将不再依附于封闭的端到端神经网络,而是蜕变为"逻辑核心(NPU)+ 静态知识库(RAM)"这一高度协同的精密系统。

更多AI大模型学习视频及资源,都在智泊AI。

相关推荐
laplace01237 小时前
claude code架构猜测总结
架构·大模型·llm·agent·rag
lkbhua莱克瓦248 小时前
RAG到RGA:生成式AI的范式演进
人工智能·llm·prompt·大语言模型·rag·rga
tswddd10 小时前
Debug:mlx-omni-server服务器用qwen3模型出错
llm·debug
致Great11 小时前
TextIn × Agentic RAG:让大模型真正读懂学术论文
llm·agent
Stirner13 小时前
A2UI : 以动态 UI 代替 LLM 文本输出的方案
前端·llm·agent
kagg88615 小时前
mcp-gateway —— 隐藏mcp上下文以避免不必要的tokens开销
llm·mcp
夏日白云15 小时前
《PDF解析工程实录》第 17 章|内容流里“看得见却看不见”的字符:那些幽灵文字从哪来?
pdf·llm·大语言模型·rag·文档解析
人工干智能1 天前
OpenAI Assistants API 中 client.beta.threads.messages.create方法,兼谈一星*和两星**解包
python·llm
小Pawn爷1 天前
10.不改模型只改提示P-Tuning微调新思路
llm·p-tuning