华为盘古 Ultra MoE 模型：国产 AI 的技术突破与行业影响

2025 年 5 月 30日，华为正式发布参数规模达 7180 亿的盘古 Ultra MoE 模型，全程基于昇腾 AI 计算平台完成训练。这一进展标志着中国在超大规模人工智能模型领域的自主研发能力达到新高度，同时也为全球 AI 技术发展提供了新的技术路径。

盘古 Ultra MoE 采用混合专家（MoE）架构，包含 256 个路由专家，每个任务激活 8 个专家协同工作，显著提升了模型的并行处理能力。为解决训练稳定性问题，华为团队提出 Depth-Scaled Sandwich-Norm（DSSN）稳定架构和 TinyInit 小初始化方法，将梯度突刺率降低 51%，实现了超过 18TB 数据的长期稳定训练。在昇腾 CloudMatrix 384 超节点集群上，通过优化算子执行序和内存管理策略，算力利用率（MFU）从 30% 提升至 41%，达到国际领先水平。

该模型在多个技术维度实现突破：一是支持 128k 长序列处理，可处理 17 万字上下文，适用于复杂文档分析和长文本生成场景；二是引入 Multi-head Latent Attention（MLA）机制，有效压缩 KV Cache 空间，缓解推理阶段的内存带宽瓶颈；三是采用 Dropless 训练策略，避免训推不一致问题，提升数据利用效率。在金融、制造等领域的实测中，盘古 Ultra MoE 展现出显著优势，例如金融风险预测准确率达 92.7%，工业控制代码生成耗时缩短至 1 分钟。

盘古 Ultra MoE 的发布对行业发展具有多方面影响。在技术层面，其全流程基于昇腾芯片的训练实践，验证了国产算力平台支持超大规模模型开发的可行性，为摆脱对国外硬件的依赖提供了技术范本。华为同时推出的 720 亿参数盘古 Pro MoE 模型，以 160 亿激活参数实现媲美千亿级模型的性能，进一步降低了企业应用 AI 的算力门槛。

在产业生态方面，盘古 Ultra MoE 的技术框架已深度整合至华为云盘古大模型体系，为金融、医疗、制造等行业提供底层能力支撑。例如，润达医疗基于该模型研发的医疗 AI "良医小慧"，在基因测序数据分析效率上提升 80%；拓维信息开发的交通行业 CV 大模型，显著优化了智能交通系统的决策能力。此外，华为向开发者社区开放模型权重，预计将推动垂直领域的 AI 应用创新。

值得关注的是，盘古 Ultra MoE 的训练过程涉及数据安全、算法伦理等多维度治理。华为通过构建分级分类的数据管理体系，结合联邦学习和差分隐私技术，确保训练数据的合规使用。这种技术创新与安全治理并重的模式，为行业提供了可参考的实践样本。

总体而言，盘古 Ultra MoE 的发布不仅是技术层面的突破，更体现了中国在 AI 领域从算力基础设施到模型应用的全链条自主创新能力。随着该模型在更多行业场景的落地，其对全球 AI 技术发展和产业格局的影响将逐步显现。