DeepSeek发布新论文提出更为高效的AI开发方法

DeepSeek发布论文，阐述了一种更为高效的人工智能开发方法。

该论文由创始人梁文锋参与撰写，提出了名为"流形约束超连接"(mHC)的框架。

作者称，该框架旨在提升可扩展性，同时降低训练先进人工智能系统的算力和能源需求。

DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。

论文链接

Hugging Face：https://huggingface.co/papers/2512.24880
Arxiv：https://arxiv.org/abs/2512.24880

2026年1月1日，DeepSeek 公布了一篇新论文，提出名为 mHC （流形约束超连接）的新架构。根据介绍，该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益。

这篇论文的第一作者有三位：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao。值得一提的是，DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

以超连接（HC）为例的研究通过扩展残差流宽度和多样化连接模式，扩展了过去十年建立的无处不在的残差连接范式。虽然产生了显著的性能提升，但这种多样化从根本上损害了残差连接固有的恒等映射属性，从而导致严重的训练不稳定性和受限的可扩展性，并且还会产生显著的内存访问开销。

为了应对这些挑战，我们提出了流形约束超连接（mHC），这是一个通用框架，可将 HC 的残差连接空间投影到特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率。

经验实验表明，mHC 对于大规模训练是有效的，可提供切实的性能改进和卓越的可扩展性。我们预计，mHC 作为 HC 的灵活且实用的扩展，将有助于更深入地理解拓扑架构设计，并为基础模型的演进提出有希望的方向。

DeepSeek团队在arXiv（预印本）网站和Hugging Face上同步发布了最新论文，名为《mHC: Manifold-Constrained Hyper-Connections》，论文的核心观点是提出一种名为"mHC"（直译为"流形约束超连接"）的框架，该框架改进了此前大模型训练中一种名为"HC（Hyper-Connections，超连接）"的范式，对大规模模型训练提供了切实的性能改进。

DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。DeepSeek在2025年春节因为R1模型的开源发布而全球爆火，但在梁文锋的带领下，这家公司极其低调，团队一直潜心学术，未做过多的商业化尝试，一心扑在基础模型理论研发之上，梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。

论文重点讲了什么？

破解大模型训练拥堵难题

DeepSeek团队本次发布的论文瞄准了大模型训练的"地基"------残差连接范式，以及为了升级残差连接范式提出的HC（超连接）范式，是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC，若以简单的语言来类比，大致可以理解为，残差连接是AI模型训练的"生命线"------它像一条单车道高速公路，让数据信号可以跳过某些层直接连接，从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿，这条"单车道"越来越不够用，此时超连接（HC）范式登场，其把单车道扩建成多车道，从而显著提升了模型性能。但与此同时，过多的数据信号也导致了"堵车撞车"，就像多车道中没装 "交通信号灯"一样，使模型训练变得更加不稳定，容易崩溃。

此时，DeepSeek提出了一种新算法，给"多车道"增加了一套智能调度系统（即mHC"流行约束"），其要求每个路口的车必须全部分流出去，每个车道接收的车数量固定，从而大大增加了模型训练的稳定性。

▲论文配图HC与mHC的训练损失差距，其中淡蓝色线为HC，蓝色线为mHC。论文截图

最终，DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是，本次DeepSeek的论文，是站在了AI"大神"何凯明以及字节跳动的肩膀上。

这是因为，残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的，何恺明还因此获得了CVPR 2016最佳论文奖，残差连接之后也成了几乎所有主流大模型的"标配"。

直到2024年，为了解决残差连接信号通道不够"宽阔"的问题，字节跳动旗下团队提出了HC（超连接）范式，但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天，在诸多大模型公司聚焦商业化和变现之际，DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末，DeepSeek团队写道，"我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解，mHC将有助于解决当前的限制，并有可能为下一代基础架构的发展指明新途径。"

参考：

DeepSeek发布最新论文

mHC (流形约束超连接)_百度百科

DeepSeek发布mHC架构：重塑大模型训练的稳定性与效率

DeepSeek开年发布新论文：提出全新mHC架构，梁文锋现身作者名单