Transformer 16. DeepSeek-V3 架构解析:在 MLA + DeepSeekMoE 上的规模化与训练/系统创新摘要:本文在 Decoder-only Transformer、LLaMA 架构、DeepSeek LLM、DeepSeekMoE 与 DeepSeek-V2 的基础上,系统介绍 DeepSeek-V3 的技术报告要点。V3 延续 Multi-head Latent Attention(MLA) 与 DeepSeekMoE 作为注意力与稀疏 FFN 的核心设计,并将规模提升到约 671B 总参数、每 token 约 37B 激活;在此基础上,论文强调三类与「规模化训练/推理」强相关的创新:无辅助损失的 M