GLM-5.1 Long上下文版完整权重（参数量）明细

官方白皮书总静态权重：744B（7440亿）

社区实测模型文件拆解总权重：754B（7540亿）

推理单次激活计算权重：40B（400亿）

Transformer层数：78层；每层统一MoE结构（1共享专家+256路由专家）

隐藏维度：6148；单专家为标准2层FFN（Gate+Up/Down）

单一层总权重：9.266B

单层内部拆分：

单个共享专家权重：330M
单个路由专家权重：33281.25万 ≈ 0.03328B
所有专家网络结构完全一致：两层线性FFN，无卷积、无额外分支；仅共享/路由参数总量几乎无差别。

全模型78层共享专家合计：78 × 0.033B = 2.574B
全模型78层×256路由专家合计：78 × 8.520B = 664.56B
全模型所有门控Router合计：78 × 0.003B = 0.234B
MoE全部权重总和：2.574 + 664.56 + 0.234 = 667.368B

单层注意力0.71B × 78层 = 55.38B

整套MTP共用一套参数池，总固定权重：14.2B，不按层复制，全局唯一。

全层注意力固定激活：55.38B中每次仅计算5.2B
MoE激活部分：每层固定1共享专家 + 8个路由专家
- 单层激活专家权重：0.033 + 8×0.03328 = 0.29924B
- 78层全部激活专家合计：78 × 0.29924 = 23.34B
Embedding+输出Head+归一化固定计算权重：11.46B
MTP推理激活权重：0.0B（推理默认关闭MTP权重计算）
激活总和：5.2+23.34+11.46 = 40B，与官方标注完全匹配。

GLM-5.1 Long上下文版 完整权重（参数量）明细