GLM-5.1 Long上下文版 完整权重(参数量)明细

GLM-5.1 Long上下文版 完整权重(参数量)明细

基础基准

官方白皮书总静态权重:744B(7440亿)

社区实测模型文件拆解总权重:754B(7540亿)

推理单次激活计算权重:40B(400亿)

Transformer层数:78层;每层统一MoE结构(1共享专家+256路由专家)

隐藏维度:6148;单专家为标准2层FFN(Gate+Up/Down)

一、顶层全局模块总权重(纯数值,无优化技术描述)

  1. 词嵌入Embedding权重:12.6B
  2. 78层Transformer整体总权重:722.8B
  3. MTP多Token预测模块权重:14.2B
  4. 输出预测Head权重:12.6B
  5. 全局RMS归一化层权重:1.8B
    合计:12.6+722.8+14.2+12.6+1.8 = 744B(官方标准总参数)

二、单层Transformer完整权重(单一层固定数值)

单一层总权重:9.266B

单层内部拆分:

  1. MLA稀疏注意力全套权重:0.71B
  2. MoE混合专家全套权重(本层全部专家+门控):8.556B

单层MoE内部全部权重明细

  1. 1个共享专家权重:0.033B
  2. 256个路由专家总权重:8.520B
  3. 路由门控Router线性权重:0.003B

三、MoE专家单体权重(核心)

  1. 单个共享专家权重:330M
  2. 单个路由专家权重:33281.25万 ≈ 0.03328B
    所有专家网络结构完全一致:两层线性FFN,无卷积、无额外分支;仅共享/路由参数总量几乎无差别。

全模型所有专家总权重汇总

  1. 全模型78层共享专家合计:78 × 0.033B = 2.574B
  2. 全模型78层×256路由专家合计:78 × 8.520B = 664.56B
  3. 全模型所有门控Router合计:78 × 0.003B = 0.234B
    MoE全部权重总和:2.574 + 664.56 + 0.234 = 667.368B

四、注意力层总权重(全模型所有层累加)

单层注意力0.71B × 78层 = 55.38B

五、MTP模块完整权重

整套MTP共用一套参数池,总固定权重:14.2B,不按层复制,全局唯一。

六、推理激活权重构成(单次前向实际计算权重40B)

  1. 全层注意力固定激活:55.38B中每次仅计算5.2B
  2. MoE激活部分:每层固定1共享专家 + 8个路由专家
    • 单层激活专家权重:0.033 + 8×0.03328 = 0.29924B
    • 78层全部激活专家合计:78 × 0.29924 = 23.34B
  3. Embedding+输出Head+归一化固定计算权重:11.46B
  4. MTP推理激活权重:0.0B(推理默认关闭MTP权重计算)
    激活总和:5.2+23.34+11.46 = 40B,与官方标注完全匹配。

七、全模型各模块总权重汇总表(纯数字)

模块 总静态权重
Embedding 12.6B
全部78层注意力 55.38B
全模型MoE所有专家+门控 667.368B
MTP预测模块 14.2B
输出LM Head 12.6B
全局归一化参数 1.8B
模型总静态权重 744B

八、关键极简结论(只看权重体量)

  1. MoE专家权重占模型绝大多数,667.368B,是模型主体;
  2. 所有路由专家单个体重统一33281万,共享专家3300万,规格统一;
  3. 每层Transformer内部92%以上权重全部集中在MoE专家,注意力仅占单层8%;
  4. MTP、Embedding、输出头均为轻量化辅助权重,合计不足40B。