Deepseek 的创新及计算速度快和成本低的原因

Deepseek 的创新

  • 开源模型
  • MLA :通过低秩健值联合压缩的注意力机制。显著减小kv缓存的同时提高计算效率。
  • MOE:Deepseek-MoE
    V3使用了61个MoE( Mix of Expert 混合专家)block,虽然总参数量很大,但每次训练或推理时只激活了很少的链路,训练成本大大降低,推理速度显著提高。
    MoE 类比医院的分诊台,在过去所有病人都要找全科医生,效率低。
  • 混合精度框架
    使用了FP8数据格式,但为了简化说明,只展示了线性算子(Linear Operator)的部分
    在不同区块里使用不同的精度来存储数据。我们知道精度高,占用内存多,运算复杂度大。Deepseek 在一些不需要高精度的模块,使用很低的精度FP8存储数据。
  • 名称规则:Qwen3-Coder-480B-A35B-Instruct
    • 480B 完整尺寸的模型参数大小
    • A35B ,激活的参数数量是35B

Q : 为什么Deepseek 计算速度快,成本低?

  • 架构设计方面
    • DeepSeek MoE 架构:在推理时仅激活部分专家,避免了激活所有参数带来的计算资源浪费
    • MLA 架构:MLA通过降秩kv 矩阵,减少了显存消耗。
  • 训练策略方面
    • 多token 预测(MTP)目标:在训练过程中采用了多token预测目标,即在每个位置上预测多个未来token,增加了训练信号的密度,提高了数据效率。
    • 混合精度训练框架:在训练中,对于占据大量计算量的通用矩阵乘法(GEMM)操作,采用FP8精度执行。同时,通过细粒度量化策略和高精度累积过程,解决了低精度训练中出现的量化误差问题。

Q : 为什么Deepseek-R1的推理能力强大?

  • 强化学习驱动:DeepSeek-R1 通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言
  • 长链推理(CoT)技术:DeepSeek-R1采用长链推理技术,其思维链长度可达数万字,能够逐帧分解复杂问题,通过多步骤的逻辑推理来解决问题
相关推荐
winfredzhang1 天前
用 Python + wxPython 做一个个人健康饮食管理工具:从记录三餐到综合生活建议
python·wxpython·deepseek·生活习惯管理
沉睡的木木夕1 天前
AI Prompt 工程化设计最佳实践(Harness Engineering)
ai·harness-engineering
白萝卜弟弟1 天前
【Agent】不用折腾配置文件:用 CCSwitch 给 Codex 接入 DeepSeek / claw-cn 第三方大模型
ai·大语言模型·agent
Irissgwe1 天前
十、LangGraph能力详解:工作流的常见模式
python·langchain·ai编程·工作流·langgraph
xianrenli381 天前
【探讨“LLM作为评判者”的伦理】
学习·llm·ai编程
AI导出鸭PC端1 天前
智谱清言怎样生成word文档——AI导出鸭助您一键转文档
人工智能·ai·word·豆包·deepseek·ai导出鸭
lipengxs1 天前
PlantUML、Mermaid、SQL ER、OpenAPI 在线预览工具整理
ai·编辑器·流程图·uml
曾瑞铭Raymond1 天前
【侄女零基础升级打怪】Vibe Coding氛围编程 AI编程之MySQL 新手学习指引
mysql·ai编程·零基础学ai·瑞铭进阶升级练习稿·ai氛围编程思维
李广坤1 天前
简单通用的“普通话” vs 严谨灵活的“结构化”:OpenAI 与 Claude API 选型指南
ai编程
如此这般英俊1 天前
手搓Claude Code-第二章 tool_use
人工智能·python·ai·语言模型