Deepseek 的创新及计算速度快和成本低的原因

前端小超人rui2026-05-16 8:32

Deepseek 的创新

开源模型
MLA ：通过低秩健值联合压缩的注意力机制。显著减小kv缓存的同时提高计算效率。
MOE：Deepseek-MoE
V3使用了61个MoE( Mix of Expert 混合专家)block,虽然总参数量很大，但每次训练或推理时只激活了很少的链路，训练成本大大降低，推理速度显著提高。
MoE 类比医院的分诊台，在过去所有病人都要找全科医生，效率低。
混合精度框架
使用了FP8数据格式，但为了简化说明，只展示了线性算子(Linear Operator)的部分
在不同区块里使用不同的精度来存储数据。我们知道精度高，占用内存多，运算复杂度大。Deepseek 在一些不需要高精度的模块，使用很低的精度FP8存储数据。
名称规则：Qwen3-Coder-480B-A35B-Instruct
- 480B 完整尺寸的模型参数大小
- A35B ，激活的参数数量是35B

Q : 为什么Deepseek 计算速度快，成本低？

架构设计方面
- DeepSeek MoE 架构：在推理时仅激活部分专家，避免了激活所有参数带来的计算资源浪费
- MLA 架构：MLA通过降秩kv 矩阵，减少了显存消耗。
训练策略方面
- 多token 预测（MTP）目标：在训练过程中采用了多token预测目标，即在每个位置上预测多个未来token,增加了训练信号的密度，提高了数据效率。
- 混合精度训练框架：在训练中，对于占据大量计算量的通用矩阵乘法（GEMM）操作，采用FP8精度执行。同时，通过细粒度量化策略和高精度累积过程，解决了低精度训练中出现的量化误差问题。

Q ：为什么Deepseek-R1的推理能力强大？

强化学习驱动：DeepSeek-R1 通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言
长链推理（CoT）技术：DeepSeek-R1采用长链推理技术，其思维链长度可达数万字，能够逐帧分解复杂问题，通过多步骤的逻辑推理来解决问题

上一篇：Flutter for OpenHarmony学习小组组队与打卡APP技术文章

下一篇：基于全球经济类多源新闻的NLP情感分析与数据可视化（日间）2026年5月15日

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03【AI】2026 年具身智能模型和世界模型总结 04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05人工智能最新动态 AI 日报 · 2026年5月10日 06AI科技热点日报 | 2026年5月11日 07Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 08零基础教你claude code 接入 deepseek V4 092026年AI前瞻：量子AI、具身智能与科学发现的新纪元 10codex app每次打开重连5次Reconnecting问题解决