DeepSeek发布新论文提出更为高效的AI开发方法

DeepSeek发布论文,阐述了一种更为高效的人工智能开发方法。

该论文由创始人梁文锋参与撰写,提出了名为"流形约束超连接"(mHC)的框架。

作者称,该框架旨在提升可扩展性,同时降低训练先进人工智能系统的算力和能源需求。

DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。

论文链接

2026年1月1日,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。

这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无处不在的残差连接范式。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。

为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC 作为 HC 的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。

DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为"mHC"(直译为"流形约束超连接")的框架,该框架改进了此前大模型训练中一种名为"HC(Hyper-Connections,超连接)"的范式,对大规模模型训练提供了切实的性能改进。

DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。

论文重点讲了什么?

破解大模型训练拥堵难题

DeepSeek团队本次发布的论文瞄准了大模型训练的"地基"------残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的"生命线"------它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿,这条"单车道"越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了"堵车撞车",就像多车道中没装 "交通信号灯"一样,使模型训练变得更加不稳定,容易崩溃。

此时,DeepSeek提出了一种新算法,给"多车道"增加了一套智能调度系统(即mHC"流行约束"),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。

▲论文配图HC与mHC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC。论文截图

最终,DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是,本次DeepSeek的论文,是站在了AI"大神"何凯明以及字节跳动的肩膀上。

这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的"标配"。

直到2024年,为了解决残差连接信号通道不够"宽阔"的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末,DeepSeek团队写道,"我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。"

参考:

DeepSeek发布最新论文

mHC (流形约束超连接)_百度百科

DeepSeek发布mHC架构:重塑大模型训练的稳定性与效率

DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单

相关推荐
User_芊芊君子8 分钟前
CANN数学计算基石ops-math深度解析:高性能科学计算与AI模型加速的核心引擎
人工智能·深度学习·神经网络·ai
小白|11 分钟前
CANN与联邦学习融合:构建隐私安全的分布式AI推理与训练系统
人工智能·机器学习·自动驾驶
艾莉丝努力练剑19 分钟前
hixl vs NCCL:昇腾生态通信库的独特优势分析
运维·c++·人工智能·cann
梦帮科技20 分钟前
Node.js配置生成器CLI工具开发实战
前端·人工智能·windows·前端框架·node.js·json
程序员泠零澪回家种桔子21 分钟前
Spring AI框架全方位详解
java·人工智能·后端·spring·ai·架构
Echo_NGC223724 分钟前
【FFmpeg 使用指南】Part 3:码率控制策略与质量评估体系
人工智能·ffmpeg·视频·码率
纤纡.34 分钟前
PyTorch 入门精讲:从框架选择到 MNIST 手写数字识别实战
人工智能·pytorch·python
大大大反派35 分钟前
CANN 生态中的自动化部署引擎:深入 `mindx-sdk` 项目构建端到端 AI 应用
运维·人工智能·自动化
程序猿追36 分钟前
深度解读 AIR (AI Runtime):揭秘 CANN 极致算力编排与调度的核心引擎
人工智能
2601_9495936541 分钟前
深入解析CANN-acl应用层接口:构建高效的AI应用开发框架
数据库·人工智能