DeepSeek-V4-Pro模型配置解读

参考:https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/config.json?status=1

一、基础模型标识

复制代码
"architectures": ["DeepseekV4ForCausalLM"],
"model_type": "deepseek_v4",
"transformers_version": "4.57.1",
  • architectures

    :模型类名,因果语言模型(自回归生成,如续写、对话)

  • model_type

    :模型官方类型 = DeepSeek V4

  • transformers_version

    :兼容的 HuggingFace 库版本


二、词表与特殊令牌

复制代码
"vocab_size": 129280,
"bos_token_id": 0,
"eos_token_id": 1,
"tie_word_embeddings": false,
  • vocab_size

    :词表大小 129280

  • bos/eos_token_id

    开始/结束令牌ID

  • tie_word_embeddings

    不共享输入/输出词嵌入矩阵(大模型常用,提升效果)


三、模型尺寸(超大规模)

复制代码
"hidden_size": 7168,        # 隐藏层维度
"num_hidden_layers": 61,    # 总网络层数
"num_attention_heads": 128, # 注意力头数
"head_dim": 512,            # 每个注意力头维度
"max_position_embeddings": 1048576, # 最大上下文长度 = 1048576

核心结论

  • 上下文窗口:1048576 tokens(100K+)

  • 超大参数量 + 超长上下文,属于顶尖开源大模型


四、MoE 稀疏专家架构(最核心特性)

DeepSeek V4 是稀疏混合专家模型(MoE),不是稠密模型:

复制代码
"n_routed_experts": 384,    # 总专家数:384个
"n_shared_experts":1,      # 共享专家数:1个
"num_experts_per_tok":6,   # 每个token 激活6个专家
"moe_intermediate_size":3072, # 专家中间层维度
"routed_scaling_factor":2.5,  # 路由激活缩放因子
"norm_topk_prob":true,     # 归一化TopK概率
"topk_method":"noaux_tc",  # 专家路由算法

通俗解释

  • 模型有 384 个专家网络 ,但每个 token 只调用 6 个

  • 推理/训练算力成本远低于同等参数量稠密模型,性能更强

  • 业界顶尖的 MoE 设计


五、注意力机制配置

复制代码
"attention_bias": false,
"attention_dropout": 0.0,
"num_key_value_heads": 1,   # GQA 分组查询注意力
"qk_rope_head_dim": 64,
"sliding_window": 128,      # 滑动窗口注意力
"use_cache": true,          # 推理缓存KV,加速生成
  • GQA

    1个KV头共享给128个Q头,大幅节省显存

  • sliding_window

    :局部窗口注意力,优化长文本效率

  • use_cache

    :开启推理缓存,生成速度更快


六、激活函数与归一化

复制代码
"hidden_act": "silu",
"rms_norm_eps": 1e-06,
"swiglu_limit": 10.0,
  • 激活函数:SiLU + SwiGLU(大模型标配)

  • 归一化:RMSNorm(LLaMA 系列标准)


七、超长上下文扩展(YaRN)

复制代码
"rope_theta": 10000,
"rope_scaling":{
"type":"yarn",
"factor":16,
"original_max_position_embeddings":65536,
"beta_fast":32,
"beta_slow":1
}
  • 位置编码:RoPE + YaRN

  • 把上下文从 65536 扩展到 1048576(16倍)

  • 业界最先进的长上下文无损扩展技术


八、FP8 量化(显存优化)

复制代码
"torch_dtype": "bfloat16",
"quantization_config":{
"quant_method":"fp8",
"activation_scheme":"dynamic",
"fmt":"e4m3",
"scale_fmt":"ue8m0",
"weight_block_size":[128,128]
}

关键作用

  • 训练/推理精度:BF16 + FP8

  • 显存减少 50%,速度提升,精度几乎无损

  • 工业级部署标配


九、LoRA 低秩适配(微调)

复制代码
"q_lora_rank": 1536,
"o_lora_rank": 1024,
"o_groups": 16,
  • 支持超大秩 LoRA 微调

  • 适合企业/科研做高质量领域微调


十、哈希检索与索引增强(DeepSeek 自研技术)

复制代码
"hc_eps": 1e-06,
"hc_mult":4,
"hc_sinkhorn_iters":20,
"index_head_dim":128,
"index_n_heads":64,
"index_topk":1024,
"num_hash_layers":3,
"scoring_func":"sqrtsoftplus",

这是 DeepSeek 自研的检索增强架构

  • 哈希检索加速长文本、知识库召回

  • 提升长文本理解、事实准确性

  • 属于模型核心黑科技


十一、压缩率配置(上下文压缩)

复制代码
"compress_rope_theta": 160000,
"compress_ratios": [...]
  • 对不同层使用不同压缩率

  • 进一步降低超长上下文的显存/算力消耗


整体总结

这是DeepSeek V4 超大规模稀疏 MoE 大模型的完整配置:

  • 384 个专家,每 token 激活 6 个

  • 1048576 超长上下文

    (YaRN 扩展)

  • FP8 量化 + GQA 注意力

    ,高效部署

  • 支持 LoRA 微调 + 哈希检索增强

  • 属于当前开源顶尖的长文本大模型

附(flash与pro对比):

分类 参数项 小参数量:DeepSeek-V4-Flash 大参数量:DeepSeek-V4-Pro 差异说明
🏷️ 模型基础 模型架构 DeepseekV4ForCausalLM DeepseekV4ForCausalLM 完全一致
hidden_size(隐层维度) 4096 7168 Pro 容量大幅提升
num_hidden_layers(总层数) 43 层 61 层 Pro 更深、学习能力更强
🧠 注意力机制 num_attention_heads(注意力头) 64 128 Pro 翻倍,细粒度理解更强
head_dim(单头维度) 512 512 相同
num_key_value_heads(KV头) 1 1 相同(GQA架构)
sliding_window(滑动窗口) 128 128 相同
🎯 MoE 混合专家 n_routed_experts(总专家数) 256 384 Pro 专家数量多50%
n_shared_experts(共享专家) 1 1 相同
num_experts_per_tok(每token激活专家) 6 6 相同(稀疏计算)
moe_intermediate_size(专家中间层) 2048 3072 Pro 单个专家能力更强
routed_scaling_factor 1.5 2.5 Pro 适配更大专家规模
🔍 哈希检索增强 index_topk(检索数量) 512 1024 Pro 长文本匹配更精准
num_hash_layers(哈希层数) 3 3 相同
🛠️ LoRA 微调 q_lora_rank 1024 1536 Pro 微调表达能力更强
o_lora_rank 1024 1024 相同
o_groups 8 16 Pro 分组更细
📜 超长上下文 max_position_embeddings 1048576(104万) 1048576(104万) 均支持百万上下文
rope_scaling(位置扩展) YaRN ×16 YaRN ×16 相同
compress_ratios(压缩策略) 浅层0压缩,中间4/128 首层128倍压缩,全程压缩 Pro 压缩更强、推理更快
⚡ 部署优化 quantization_config FP8 动态量化 FP8 动态量化 相同
torch_dtype bfloat16 bfloat16 相同
🔤 词表 vocab_size 129280 129280 完全一致
相关推荐
aaajj1 小时前
【Android】防骚扰电话自动接听助手方案
android·人工智能
直奔標竿1 小时前
Java开发者AI转型第九课!突破知识边界!企业级 RAG (检索增强生成) 核心架构与 ETL 管道初探
java·开发语言·人工智能·后端·spring
掘金安东尼1 小时前
ZeroClaw 的安全模型:四层沙箱 + 默认拒绝是怎么叠出来的
人工智能
龙侠九重天1 小时前
AI Agent 是什么?从概念到第一个智能体
人工智能·agent·智能体
skilllite作者1 小时前
SkillLite Rust 沙箱与 AI Agent 自进化实战指南
开发语言·人工智能·后端·架构·rust
掘金安东尼1 小时前
ZeroClaw vs OpenClaw:把"-99% 内存"那张图拆开看
人工智能
掘金安东尼2 小时前
拆 ZeroClaw 架构:四个 Trait 撑起一个 Agent 运行时
人工智能
sunneo2 小时前
专栏B-产品心理学深度-01-认知偏差手册
人工智能·产品运营·产品经理·ai编程·ai-native
Rabbit_QL2 小时前
【ChatGPT Image2 全景图实战】从提示词到电影级长镜头画面
人工智能·chatgpt