DeepSeek 提出 mHC,改造何恺明残差连接

DeepSeek 提出 mHC,改造何恺明残差连接

大模型实验室 Lab4AI 论文阅读

✔️ 研究背景

深度学习中,残差连接ResNetTransformer 等架构(含 LLM)的基础,其恒等映射特性保障了大规模训练的稳定性与效率。Hyper-Connections(HC)通过扩展残差流宽度、多样化连接模式提升模型性能,但因连接无约束,破坏了恒等映射特性,导致训练不稳定、扩展性受限,且存在显著内存访问与通信开销,这一问题限制了 HC 在大规模训练中的实际应用,形成研究缺口。

✔️ 研究目的

本文解决 HC 架构存在的训练不稳定性、扩展性差及系统开销大的核心问题,同时保留 HC 扩展残差连接带来的性能优势,提出一种兼顾稳定性、扩展性与效率的通用残差连接框架,支撑大规模深度学习模型(尤其是 LLM)的高效训练。

✔️ 核心贡献

提出 Manifold-Constrained Hyper-Connections(mHC)框架,通过将 HC 的残差映射投影到双随机矩阵流形(Birkhoff 多面体),恢复恒等映射特性,保障信号传播稳定性;

对输入 / 输出映射施加非负约束,避免信号抵消,同时通过核融合、选择性重计算、DualPipe 通信重叠等基础设施优化,降低系统开销;

实证验证 mHC 在大规模预训练中的有效性,为深度网络拓扑架构设计提供新视角,推动基础模型的演进。

✔️ 研究方法

  • 1)核心方法论:采用 Sinkhorn-Knopp 算法将残差映射 H_res 熵投影到双随机矩阵流形,对 H_pre 和 H_post 用 Sigmoid 函数施加非负约束;
  • 2)基础设施优化:基于 TileLang 实现混合精度核融合,通过选择性重计算降低内存占用,扩展 DualPipe 调度实现通信与计算重叠;
  • 3)实验设计:在 3B 至 27B 参数的语言模型上进行预训练实验,对比基线、HC 和 mHC 的稳定性、下游任务性能及缩放特性。

✔️ 研究结果

  • 1)稳定性提升:mHC 在 27B 模型训练中消除 HC 的损失突增现象,梯度范数保持稳定(对比 HC 的 3000 倍信号增益峰值,mHC 最大增益仅 1.6 倍)。
  • 2)性能优势:在推理、阅读理解、数学问题解决等任务上全面优于基线和 HC,27B 模型在 BBH 上较 HC 提升 2.1%;
  • 3)扩展性与效率:支持模型规模与训练数据量的高效扩展,n=4 时仅增加 6.7% 时间开销,显著降低内存访问与通信成本。
相关推荐
OenAuth.Core2 小时前
StarGantt星甘3.0发布:引入AI智能生成甘特图
人工智能·甘特图
不解风水2 小时前
《深度学习入门:基于 Python 的理论与实现》(斋藤康毅)
人工智能·python·深度学习
brent4232 小时前
DAY54 CBAM注意力
人工智能·深度学习·机器学习
Hcoco_me2 小时前
大模型面试题90:half2,float4这种优化 与 pack优化的底层原理是什么?
人工智能·算法·机器学习·langchain·vllm
Python算法实战2 小时前
《大模型面试宝典》(2026版) 正式发布!
人工智能·深度学习·算法·面试·职场和发展·大模型
九尾狐ai2 小时前
从九尾狐AI企业培训案例拆解:传统企业的AI获客系统架构设计与实战效果分析
人工智能
Blossom.1183 小时前
AI Agent智能办公助手:从ChatGPT到真正“干活“的系统
人工智能·分布式·python·深度学习·神经网络·chatgpt·迁移学习
应用市场3 小时前
Adam优化器深度解析:从数学原理到PyTorch源码实
人工智能·pytorch·python
a努力。3 小时前
2026 AI 编程终极套装:Claude Code + Codex + Gemini CLI + Antigravity,四位一体实战指南!
java·开发语言·人工智能·分布式·python·面试