DeepSeek 核心秘籍，快速入门大模型

一. DeepSeek是什么

Deepseek是杭州深度求索人工智能基础技术研究有限公司推出的一款创新大语言模型。公司成立于2023年7月17日，由知名私募巨头幻方量化孕育而生。Deepseek致力于开发和应用先进的大语言模型技术.

二. 大语言模型的特点有哪些

大语言模型主要包含以下特点：

内容 Token 化
模型训练存在endtime
无自我认识，无自我意识
上下文长度限定，记忆力有限
回答输出长度有限

三. DeepSeek发展由来

发展时间线:

2019年：布局集卡
2020年：投入10亿手握万卡
2022年3月：GPT 3.5发布
2024年5月：V2 发布 GPT 4.0发布
2024年7月：LLama-3.1发布
2024年底：V3发布
2025年1月31号：R1登录nvidia官网

四. DeepSeek为什么这么火

1、技术突破

模型架构与训练效率优化：采用混合精度训练策略，提高训练速度和质量。
数据质量与领域适配：通过多模态数据清洗和渐进式微调策略，提升模型的泛化能力。

2、开源生态

开放模型与工具链：提供了完整的训练代码和数据清洗Pipeline，以及轻量化部署工具。
社区驱动创新：鼓励开发者基于DeepSeek模型构建垂直应用，促进金融和教育场景的创新。

3、行业落地

从"通用模型"到"领域专家" ：通过预训练阶段减少后期调试成本，推动行业需求定制化。
成本革命：降低企业部署专业模型的门槛，实现低成本高效率的应用。

4、行业竞争格局

倒逼闭源模型降价：通过开源模式迫使国际厂商调整定价策略。
催化国产芯片生产生态：与华为昇腾、寒武纪等厂商合作，优化模型性能。
推动GPU技术民主化：中小企业可以更低成本获取高性能计算资源。

5、挑战及未来

技术上：支持更长的上下文理解和多种模态扩展。
商业化上：开源模式可能引发企业版变现困难，需探索新的商业模式。

五. DeepSeek核心哪些创新大幅降低训练成本

大幅压缩计算量

MLA多层注意力架构
- 原先每一层都有独立的内存和计算操作。
- 优化后前后合并，使得时序更加高效。
FP8混合精度训练框架
- 原先是32位和16位的混合精度。
- 不需要精确的采用 8 位，该精确的还是 32 位。
- 每128位交给会计总账合计确保精度。

分布式并行提效

DualPipe跨节点通信
- 原来需要等待前面的stage完成才能进行下一步。
- 通过优化为双路计算流水线，传输和计算同步进行，提升了50%的计算效率和20%的传输效率。
无辅助损失的负载均衡策略
- 原来每个worker干活一样。
- 现在通过均摊任务，保证worker有活干。
跨节点全对全通信内核
- 提升了整体通信效率。

模型大、数全、偏科

模型够大参数多
- Llama3.1有405B参数，而Deepseek有67B参数。
数据全且精
- 精选数据，清理干净
MTP技术（Multi-Token Prediction 多令牌预测）
- 传统方法一次预测一个Token，现在可以连续预测多个Token，提高了预测效率。
R1蒸馏技术
- 使用R1蒸馏模型，给出计算逻辑推理，并通过大模型指导小模型训练，降低了推理成本。

六. DeepSeek核心技术架构

1. 模型架构

多模态深度Transformer:支持文本、代码、数学符号的统一理解与生成
动态稀疏激活机制:采用MoE [mixture ofExperts] 架构，实现万亿参数级高效推理

2. 核心技术突破

超长上下文建模:支持128K+tokens窗口，精准捕捉长程依赖
自研训练框架:融合高效分布式训练、混合精度优化与灾难性遗忘抑制技术
强化学习对齐:基于人类反馈的强化学习[RLHF]，提升结果安全性与实用性

3.核心优势

高效推理:单卡支持千亿参数模型部署，推理速度提升3倍+
多任务兼容:原生支持智能体[Agent]架构，实现工具调用与复杂推理
持续进化:支持参数高效微调[PEFT]，快速适配垂直领域需求

4.应用场景

智能问答
代码生成
数据分析
科研计算
多模态交互

七.DeepSeek的核心版本

版本	原理	重要功能	特点	关键指标提升
DeepSeek V1	将多头查询 [Q] 分组共享键值 [KV]，减少显存占用	基本沿用LaMa	奠定基础	训练速度+20%
DeepSeek V2	在潜在空间压缩注意力头维度【如64维→32维】，通过低秩分解减少计算量	提出DeepSeek MoE 引入MTP技术	效率革命 MoE + 潜在注意力	推理成本-50% 专家利用率+24%
DeepSeek V3	熵最大化路由：约束路由器输出的熵值，自然分散专家负载梯度稀疏：对过载专家暂停梯度更新，促使其"冷却"	MoE负载均衡优化	负载均衡新范式无辅助损失均衡	综合任务得分+15%
DeepSeek R1	动态路由架构：根据输入类型【文本/代码/数学】自动切换模型分支混合精度推理：FP16用于注意力计算，INT4用于FFN层，延迟降低35%	冷启动问题的强化学习	全能选手动态路由 + 混合精度	综合任务得分+15%

八. DeepSeek的核心技术

1. 持续迭代的工程与创新

对Transformer框架内的注意力模块和前馈网络[FFNs]进行了优化，采用了我们提出的多头潜在注意力[MLA] 和 DeepSeekMoE技术。

2.MLA 减少kv 缓存占用空间

传统的Transformer模型通常采用多头注意力[MHA]但在生成过程中，其庞大的键值 [KV]缓存会成为限制推理效率的瓶颈。为了减少KV缓存，提出了多查询注意力[MQA]和分组查询注意力[GQA]它们需要的KV缓存规模较小，但性能不及MHA。

3.MoE细粒度分割与共享隔离

DeepSeekMoE相比MoE有2个核心优化

FFN维度调小，增加Expert数量 [细粒度的Expert分割]
- 将expert细分到更细的粒度，以实现更高的专家专业化程度和更准确的知识获取
增加提取公用Expert并共享化，其它Expert专注于差异化
- 增加了几个所有token都走的公用Expect，通过让所有token都走这些Expert,让这些Expert提取通用信息，隔离一些共享expert，以减轻路由专家之间的知识冗余，其他Expert就能更专注于提取差异化的信息

4.Multi-Token 预测(MTP)

MTP主要将单token的生成，转变成多token的生成，提升训练和推理的性能;
MTP使训练信号更加密集，可能会提高数据效率
还使模型预先规划，以便更好地预测未来的Token

5.PualPipe调度策略+细粒度的混合精度框架

管道并行算法 DualPipe
- 除了基础架构，DeepSeek还在基础设施方面进行了一定优化。例如设计了一种创新的管道并行算法 DualPipe，在每一对前向和后向块内重叠计算和通信提高通信效率、加速了模型训练
细粒度的混合精度框架
- DeepSeek提出了一种用于 FP8 训练的混合精度框架，其中大多数计算密集型操作在 FP8 精度下进行，而一些关键操作则战略性地保持在原始数据格式以平衡训练效率和数值稳定性:训练过程中，采用英伟达 PTX「并行线程执行」汇编级编程替代标准 CUDA 方案,实现了硬件级深度优化，减少了计算冗余，提高了推理速度。

6.R1-zero 基础模型上的强化学习

强化学习算法:采用了群体相对策略优化

摒弃了通常与策略模型大小相同的评论家模型，而是从群体得分中估算基线
最终实现训练集上的平均响应长度持续提升，自然地学会了通过更多的思考时间来解决推理任务

7.R1具有冷启动的强化学习

尽管DeepSeek-R1-Zero展现出了强大的推理能力，并且能够自主发展出出人意料且强大的推理行为，但它仍面临一些问题。例如，DeepSeek-R1-Zero在可读性差以及语言混杂等方面存在困难。为了使推理过程更具可读性，并能与开源社区共享，我们探索了DeepSeek-R1方法，该方法利用带有对人类友好的冷启动数据的强化学习。