一文搞懂DeepSeek LLM

大语言模型（LLM）已经成为通往通用人工智能（AGI）的关键路径。自 ChatGPT 引爆公众关注后，开源社区也不断追赶，推出 LLaMA、Mistral、Yi 等模型，逐步缩小与闭源模型的差距。

DeepSeek LLM 是一项来自 DeepSeek-AI 的开源努力，不仅在架构、训练调度、数据处理等方面延续了高水准的工程实践，更进一步探索了如何在"长期主义"视角下优化大模型的可扩展性与性能。

在正式了解 DeepSeek 的架构前，建议带着以下三个问题阅读这篇文章：

DeepSeek LLM 在架构上相比 LLaMA 有哪些关键改动？
为什么 DeepSeek 使用了 Grouped-Query Attention（GQA），而不是 Multi-Head Attention（MHA）？
DeepSeek 是如何兼顾训练效率与未来可持续扩展的？

所有相关源码示例、流程图、模型配置与知识库构建技巧，我也将持续更新在Github：LLMHub，欢迎关注收藏！

一、模型参数配置：从 7B 到 67B 的平滑扩展

DeepSeek LLM 提供两个版本：7B 和 67B，分别拥有 30 层与 95 层 Transformer 层，参数规模上对标 LLaMA，但在细节设计上做出了关键优化：

📌 值得注意的是，DeepSeek 并没有简单地加宽 FFN，而是通过增加网络深度来提升模型能力，同时更利于训练阶段的流水线并行。

在传统的 Multi-Head Attention 中，每个注意力头都要独立计算 query-key-value 三组向量，随着模型增大，KV 缓存的开销迅速膨胀。

DeepSeek 67B 选择了 GQA 替代 MHA：

这一选择使得 DeepSeek 能更好地部署在多种应用场景中，并提高模型在部署阶段的性价比。

不同于多数 LLM 使用的余弦学习率调度器，DeepSeek LLM 引入了多阶段学习率（multi-step scheduler）策略：

这一策略带来两个直接好处：

📌 DeepSeek 明确指出，虽然这种策略与余弦调度相比最终性能差别不大，但在工程上更可控、更有利于长周期训练

DeepSeek 使用自研的高效训练框架 HAI-LLM，集成了 Megatron 的关键并行策略，并加入如下优化：

此外还支持在不同并行配置间无缝恢复训练，展示出极高的工程成熟度。

1. DeepSeek LLM 在架构上相比 LLaMA 有哪些关键改动？

主要改动包括：引入 GQA 替代 MHA、使用 RMSNorm 和 SwiGLU、选择多步学习率调度器、在 67B 模型中优先加深网络层数而不是加宽。

模型	注意力机制	学习率调度	深度扩展策略	KV 缓存优化	架构细节
LLaMA	Multi-Head Attention	Cosine decay	均衡加宽加深	无特别优化	SwiGLU + RMSNorm
DeepSeek LLM	GQA（Grouped Query Attention）	Multi-step 调度器	优先加深层数	减少 KV 缓存使用	SwiGLU + RMSNorm + HAI训练框架

2. 为什么 DeepSeek 使用 GQA？

为了显著减少推理阶段的 KV 缓存占用，提升推理速度，同时维持较高模型性能。这一策略使得模型更加轻量，适合落地部署。

3. DeepSeek 如何兼顾训练效率与未来可持续扩展？

通过可复用的多步学习率调度器、持续训练友好的设计、以及高性能并行框架 HAI-LLM，DeepSeek 在工程上为长期扩展和迭代预留了空间。

DeepSeek LLM 不只是又一个开源模型，它是对"长期主义"视角下 LLM 架构与训练方式的系统性探索。从架构微调到大规模训练支持，它展示了国产开源 LLM 在工程能力与模型设计上的巨大进步。如果你关心大模型的推理效率、扩展性与部署落地，这份架构设计值得深入研究。

关于深度学习和大模型相关的知识和前沿技术更新，请关注公众号算法coting！