GLM-5.1 Long上下文版 完整权重(参数量)明细
基础基准
官方白皮书总静态权重:744B(7440亿)
社区实测模型文件拆解总权重:754B(7540亿)
推理单次激活计算权重:40B(400亿)
Transformer层数:78层;每层统一MoE结构(1共享专家+256路由专家)
隐藏维度:6148;单专家为标准2层FFN(Gate+Up/Down)
一、顶层全局模块总权重(纯数值,无优化技术描述)
- 词嵌入Embedding权重:12.6B
- 78层Transformer整体总权重:722.8B
- MTP多Token预测模块权重:14.2B
- 输出预测Head权重:12.6B
- 全局RMS归一化层权重:1.8B
合计:12.6+722.8+14.2+12.6+1.8 = 744B(官方标准总参数)
二、单层Transformer完整权重(单一层固定数值)
单一层总权重:9.266B
单层内部拆分:
- MLA稀疏注意力全套权重:0.71B
- MoE混合专家全套权重(本层全部专家+门控):8.556B
单层MoE内部全部权重明细
- 1个共享专家权重:0.033B
- 256个路由专家总权重:8.520B
- 路由门控Router线性权重:0.003B
三、MoE专家单体权重(核心)
- 单个共享专家权重:330M
- 单个路由专家权重:33281.25万 ≈ 0.03328B
所有专家网络结构完全一致:两层线性FFN,无卷积、无额外分支;仅共享/路由参数总量几乎无差别。
全模型所有专家总权重汇总
- 全模型78层共享专家合计:78 × 0.033B = 2.574B
- 全模型78层×256路由专家合计:78 × 8.520B = 664.56B
- 全模型所有门控Router合计:78 × 0.003B = 0.234B
MoE全部权重总和:2.574 + 664.56 + 0.234 = 667.368B
四、注意力层总权重(全模型所有层累加)
单层注意力0.71B × 78层 = 55.38B
五、MTP模块完整权重
整套MTP共用一套参数池,总固定权重:14.2B,不按层复制,全局唯一。
六、推理激活权重构成(单次前向实际计算权重40B)
- 全层注意力固定激活:55.38B中每次仅计算5.2B
- MoE激活部分:每层固定1共享专家 + 8个路由专家
- 单层激活专家权重:0.033 + 8×0.03328 = 0.29924B
- 78层全部激活专家合计:78 × 0.29924 = 23.34B
- Embedding+输出Head+归一化固定计算权重:11.46B
- MTP推理激活权重:0.0B(推理默认关闭MTP权重计算)
激活总和:5.2+23.34+11.46 = 40B,与官方标注完全匹配。
七、全模型各模块总权重汇总表(纯数字)
| 模块 | 总静态权重 |
|---|---|
| Embedding | 12.6B |
| 全部78层注意力 | 55.38B |
| 全模型MoE所有专家+门控 | 667.368B |
| MTP预测模块 | 14.2B |
| 输出LM Head | 12.6B |
| 全局归一化参数 | 1.8B |
| 模型总静态权重 | 744B |
八、关键极简结论(只看权重体量)
- MoE专家权重占模型绝大多数,667.368B,是模型主体;
- 所有路由专家单个体重统一33281万,共享专家3300万,规格统一;
- 每层Transformer内部92%以上权重全部集中在MoE专家,注意力仅占单层8%;
- MTP、Embedding、输出头均为轻量化辅助权重,合计不足40B。