DeepSeek-V4-Pro模型配置解读

参考:https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/config.json?status=1

一、基础模型标识

复制代码
"architectures": ["DeepseekV4ForCausalLM"],
"model_type": "deepseek_v4",
"transformers_version": "4.57.1",
  • architectures

    :模型类名,因果语言模型(自回归生成,如续写、对话)

  • model_type

    :模型官方类型 = DeepSeek V4

  • transformers_version

    :兼容的 HuggingFace 库版本


二、词表与特殊令牌

复制代码
"vocab_size": 129280,
"bos_token_id": 0,
"eos_token_id": 1,
"tie_word_embeddings": false,
  • vocab_size

    :词表大小 129280

  • bos/eos_token_id

    开始/结束令牌ID

  • tie_word_embeddings

    不共享输入/输出词嵌入矩阵(大模型常用,提升效果)


三、模型尺寸(超大规模)

复制代码
"hidden_size": 7168,        # 隐藏层维度
"num_hidden_layers": 61,    # 总网络层数
"num_attention_heads": 128, # 注意力头数
"head_dim": 512,            # 每个注意力头维度
"max_position_embeddings": 1048576, # 最大上下文长度 = 1048576

核心结论

  • 上下文窗口:1048576 tokens(100K+)

  • 超大参数量 + 超长上下文,属于顶尖开源大模型


四、MoE 稀疏专家架构(最核心特性)

DeepSeek V4 是稀疏混合专家模型(MoE),不是稠密模型:

复制代码
"n_routed_experts": 384,    # 总专家数:384个
"n_shared_experts":1,      # 共享专家数:1个
"num_experts_per_tok":6,   # 每个token 激活6个专家
"moe_intermediate_size":3072, # 专家中间层维度
"routed_scaling_factor":2.5,  # 路由激活缩放因子
"norm_topk_prob":true,     # 归一化TopK概率
"topk_method":"noaux_tc",  # 专家路由算法

通俗解释

  • 模型有 384 个专家网络 ,但每个 token 只调用 6 个

  • 推理/训练算力成本远低于同等参数量稠密模型,性能更强

  • 业界顶尖的 MoE 设计


五、注意力机制配置

复制代码
"attention_bias": false,
"attention_dropout": 0.0,
"num_key_value_heads": 1,   # GQA 分组查询注意力
"qk_rope_head_dim": 64,
"sliding_window": 128,      # 滑动窗口注意力
"use_cache": true,          # 推理缓存KV,加速生成
  • GQA

    1个KV头共享给128个Q头,大幅节省显存

  • sliding_window

    :局部窗口注意力,优化长文本效率

  • use_cache

    :开启推理缓存,生成速度更快


六、激活函数与归一化

复制代码
"hidden_act": "silu",
"rms_norm_eps": 1e-06,
"swiglu_limit": 10.0,
  • 激活函数:SiLU + SwiGLU(大模型标配)

  • 归一化:RMSNorm(LLaMA 系列标准)


七、超长上下文扩展(YaRN)

复制代码
"rope_theta": 10000,
"rope_scaling":{
"type":"yarn",
"factor":16,
"original_max_position_embeddings":65536,
"beta_fast":32,
"beta_slow":1
}
  • 位置编码:RoPE + YaRN

  • 把上下文从 65536 扩展到 1048576(16倍)

  • 业界最先进的长上下文无损扩展技术


八、FP8 量化(显存优化)

复制代码
"torch_dtype": "bfloat16",
"quantization_config":{
"quant_method":"fp8",
"activation_scheme":"dynamic",
"fmt":"e4m3",
"scale_fmt":"ue8m0",
"weight_block_size":[128,128]
}

关键作用

  • 训练/推理精度:BF16 + FP8

  • 显存减少 50%,速度提升,精度几乎无损

  • 工业级部署标配


九、LoRA 低秩适配(微调)

复制代码
"q_lora_rank": 1536,
"o_lora_rank": 1024,
"o_groups": 16,
  • 支持超大秩 LoRA 微调

  • 适合企业/科研做高质量领域微调


十、哈希检索与索引增强(DeepSeek 自研技术)

复制代码
"hc_eps": 1e-06,
"hc_mult":4,
"hc_sinkhorn_iters":20,
"index_head_dim":128,
"index_n_heads":64,
"index_topk":1024,
"num_hash_layers":3,
"scoring_func":"sqrtsoftplus",

这是 DeepSeek 自研的检索增强架构

  • 哈希检索加速长文本、知识库召回

  • 提升长文本理解、事实准确性

  • 属于模型核心黑科技


十一、压缩率配置(上下文压缩)

复制代码
"compress_rope_theta": 160000,
"compress_ratios": [...]
  • 对不同层使用不同压缩率

  • 进一步降低超长上下文的显存/算力消耗


整体总结

这是DeepSeek V4 超大规模稀疏 MoE 大模型的完整配置:

  • 384 个专家,每 token 激活 6 个

  • 1048576 超长上下文

    (YaRN 扩展)

  • FP8 量化 + GQA 注意力

    ,高效部署

  • 支持 LoRA 微调 + 哈希检索增强

  • 属于当前开源顶尖的长文本大模型

附(flash与pro对比):

分类 参数项 小参数量:DeepSeek-V4-Flash 大参数量:DeepSeek-V4-Pro 差异说明
🏷️ 模型基础 模型架构 DeepseekV4ForCausalLM DeepseekV4ForCausalLM 完全一致
hidden_size(隐层维度) 4096 7168 Pro 容量大幅提升
num_hidden_layers(总层数) 43 层 61 层 Pro 更深、学习能力更强
🧠 注意力机制 num_attention_heads(注意力头) 64 128 Pro 翻倍,细粒度理解更强
head_dim(单头维度) 512 512 相同
num_key_value_heads(KV头) 1 1 相同(GQA架构)
sliding_window(滑动窗口) 128 128 相同
🎯 MoE 混合专家 n_routed_experts(总专家数) 256 384 Pro 专家数量多50%
n_shared_experts(共享专家) 1 1 相同
num_experts_per_tok(每token激活专家) 6 6 相同(稀疏计算)
moe_intermediate_size(专家中间层) 2048 3072 Pro 单个专家能力更强
routed_scaling_factor 1.5 2.5 Pro 适配更大专家规模
🔍 哈希检索增强 index_topk(检索数量) 512 1024 Pro 长文本匹配更精准
num_hash_layers(哈希层数) 3 3 相同
🛠️ LoRA 微调 q_lora_rank 1024 1536 Pro 微调表达能力更强
o_lora_rank 1024 1024 相同
o_groups 8 16 Pro 分组更细
📜 超长上下文 max_position_embeddings 1048576(104万) 1048576(104万) 均支持百万上下文
rope_scaling(位置扩展) YaRN ×16 YaRN ×16 相同
compress_ratios(压缩策略) 浅层0压缩,中间4/128 首层128倍压缩,全程压缩 Pro 压缩更强、推理更快
⚡ 部署优化 quantization_config FP8 动态量化 FP8 动态量化 相同
torch_dtype bfloat16 bfloat16 相同
🔤 词表 vocab_size 129280 129280 完全一致
相关推荐
耕烟煮云5 小时前
本文深入解析AI Native产品设计的核心范式——Linear三层架构模型
人工智能·架构
Rewloc5 小时前
人生计算器
人工智能
波动几何5 小时前
内容执行创新正交组合闭集
人工智能
XD7429716365 小时前
科技早报晚报|2026年5月13日:Agent 记忆、编程控制台与本地研究工作台,今天更值得动手的 3 个机会
人工智能·科技·开源项目·科技新闻·ai agent·开发者工具·科技早报
XD7429716365 小时前
科技早报|2026年5月16日:AI 正往高门槛场景下沉
人工智能·科技·开发者工具·科技早报
X54先生(人文科技)6 小时前
《元创力》纪实录·桥段古卷显影:当未来考古遇见元协议
人工智能·开源·零知识证明
小王毕业啦6 小时前
2009-2025年 华证ESG年度季度评级评分数据 xlsx
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
2601_957787586 小时前
数据驱动的多平台内容矩阵运营效果分析与闭环优化技术
大数据·人工智能·矩阵
小小工匠6 小时前
Spring AI RAG - 06 敏感词过滤与内容安全防护
人工智能·安全·spring
189228048616 小时前
NV265固态MT29F32T08GSLBHL8-24QMES:B
大数据·服务器·人工智能·科技·缓存