Transformer 20. Qwen 3 架构介绍：模块详解与相对 Qwen 1 / Qwen 2 的演进

摘要：本文基于 Qwen3 Technical Report（arXiv:2505.09388），按数据流自洽展开 ：§2 给出 整体架构总览 （Decoder-only 数据流、单 Block 示意，便于与社区导读对照）；继而从 Tokenizer、Embedding、绑权 写到 单层 Decoder 内的 RMSNorm、GQA、RoPE、QK-Norm、因果注意力、SwiGLU FFN、输出层 ，并说明 长上下文（三阶段预训练、RoPE 基频 ABF、YARN、DCA） 、MoE（128 路由专家、top-8、无共享专家） 与 思考 / 非思考模式 。文中在相应位置直接写出 Qwen 1、Qwen 2、Qwen 3 的差异对照，读者无需依赖系列其它篇即可读懂骨干；文末仍给出同系列链接便于延伸阅读。

关键词：Qwen3；QK-Norm；GQA；RoPE；RMSNorm；YARN；DCA；MoE；思考模式；大语言模型

同系列博文（延伸阅读）：

💡 理解要点 ：可以把 Qwen3 想成：仍是 Decoder-only （只有「因果自注意力 + 前馈」，没有 Encoder），整体仍是 Pre-Norm + RMSNorm + RoPE + SwiGLU + GQA 这一现代主流骨架。相对 Qwen2 ，报告强调的硬变化主要是：去掉 QKV 线性层的 bias ，改成在注意力里对 Q、K 做 QK-Norm 稳住尺度；词表从 Qwen2 报告的 151,646 扩到 151,669 ；MoE 改为 128 个路由专家、每 token 激活 8 个、不设共享专家 ，并加 global-batch 负载均衡 。思考 / 非思考 是后训练与聊天模板塑造的行为，不是多出来的神经网络层。

1. 概述：Qwen3 在系列中的位置

Qwen3 Technical Report 将 Qwen3 定位为通义千问家族新一代 开放权重 大语言模型：含 稠密/Dense 与 MoE ，总参约 0.6B～235B ；旗舰 Qwen3-235B-A22B 为 MoE（总参约 235B，每 token 激活约 22B ）。许可证 Apache 2.0 。预训练数据约 36T tokens ，覆盖约 119 种语言与方言；后训练突出 思考（thinking）与非思考（non-thinking） 融于 同一套权重 ，以及 思考预算（thinking budget）。

💡 稠密与 MoE 是什么？

稠密（Dense） ：每一层里 FFN（前馈子层）只有一套权重 ，每个 token 前向时这套参数全部参与计算 。可以粗略理解成：模型有多大，每一步就算多大 ------显存里的权重规模与单次算量基本同量级。日常说的 Qwen3-8B、14B、32B 等，指的就是这种「整网共享同一条 FFN」的稠密型号。

MoE（Mixture of Experts，混合专家） ：把 FFN 换成 很多个结构相同、参数彼此独立的小网络（专家） ，再配一个 门控（路由器） ：对当前这个 token 只挑出 其中少数几个专家 来算，其余专家本步不算。效果是：仓库里可以装下非常大的总参数量 （例如 235B），但 每生成一个 token 实际用到的计算量只和「被激活的那几条支路」相当 （报告里的 A22B 就表示这类「每 token 激活约 22B」的量级）。像一家大医院有很多科室，问诊时不会每个科室都跑一遍 ，只请相关专家会诊。注意力层 在 MoE 型号里通常仍是 共享、全量计算 的；稀疏主要发生在 FFN 上。更细的公式与 Qwen3 的 128 专家、top-8 设定见 §9。

与 Qwen 1 / Qwen 2 对照：

代际	注意力与归一	词表（报告口径）	稠密注意力头	长上下文主线
Qwen 1	MHA 为主 + QKV bias ；FFN 中间维常取 8 3 d \frac{8}{3}d 38d	约 152K	每头一套 KV	预训练较短 + 推理期 NTK 等技巧
Qwen 2	全系 GQA + QKV bias ；FFN 中间维按表 Intermediate Size	151,646	h q > h kv h_q>h_{\text{kv}} hq>hkv	训练末段 32K + RoPE 基频 10 6 10^6 106 + YARN + DCA
Qwen 3	全系 GQA + 无 QKV bias + QK-Norm；FFN 同「按配置表」	151,669	h q > h kv h_q>h_{\text{kv}} hq>hkv	三阶段预训练 + 长阶段 32K + ABF + YARN + DCA （推理约 4× 训练窗容量）

🔍 读配置的提醒 ：各型号 hidden_size、intermediate_size、num_key_value_heads、head_dim 等以 Hugging Face config.json 与官方发布 为准；下文稠密 / MoE 表摘自技术报告，若与某一 checkpoint 略有出入，以权重为准。

2. 整体架构总览

2.1 Decoder-only：只有「解码堆栈」

Qwen3 与 GPT / LLaMA / Qwen 前两代一样，是 Decoder-only 因果语言模型：

没有 Encoder ，也没有 Encoder--Decoder 之间的 交叉注意力。
每一层只有 带因果掩码的自注意力 + 前馈网络（FFN）。
训练目标：只看当前位置之前的 token，预测下一个 token（自回归）。

💡 直觉：像只带「已读部分高亮」的阅读灯从左扫到右------每一步只能利用已经出现的词来猜下一个词，不能偷看未来。

2.2 宏观看：从字符串到 logits

整体数据流（可先假设 Batch=1）：

复制代码

纯文本
  → Tokenizer（BBPE）→ token ID 序列，长度 L
  → Embedding 查表 → 矩阵 X ∈ ℝ^(L × d_model)
  → 堆叠 N 个「Transformer Block」（每层结构相同，参数不同）
  → 最后一层隐藏状态 H → 取最后一个位置 h（预测下一词）
  → LM Head（线性层；可与 Embedding 绑权或分开）
  → 词表 logits → Softmax → 下一 token 概率

位置信息 不写成「词嵌入 + 正弦位置向量」叠在 X X X 上，而是在 每一层注意力里 对 Q、K 施加 RoPE （详见 §3.4 ）；超长输入 上的 YARN、DCA 等与 RoPE 配合，见 §7。

2.3 单个 Transformer Block（稠密 Qwen3）

一个 Block = 注意力子层 + FFN 子层 ，两边都是 Pre-Norm + 残差。

顺序	组件	作用（一句话）
1	RMSNorm	在进注意力前，把每个位置的向量尺度拉稳
2	因果 GQA	自注意力：多组 Query 共享较少组 Key/Value，省 KV Cache
3	RoPE	旋进 Q、K，编码相对位置
4	QK-Norm	Qwen3 特有：点积前对 Q、K 归一化；与「去掉 QKV bias」配套
5	掩码 + Softmax + V + 拼接 + W O W_O WO	标准注意力输出，形状仍为 L × d model L \times d_{\text{model}} L×dmodel
6	残差	与进入本子层前的 hidden 相加
7	RMSNorm	再归一化后进 FFN
8	SwiGLU FFN	门控前馈，提供主要非线性
9	残差	得到本 Block 输出，作为下一层输入

MoE Qwen3 ：自注意力整段 + 两侧 RMSNorm 与残差 与稠密相同；FFN 段 把「单个稠密 SwiGLU」换成 门控 + 多专家 ，每个 token 只算其中 top- k k k 个专家 （§9）。

用 ASCII 画成单块数据流：

复制代码

                 ┌──────────────────────────────────────────────┐
  本层输入       │  形状 (Batch, SeqLen, d_model)               │
       ↓         │            ↓                                 │
  RMSNorm        │  Pre-Norm，逐行归一化，形状不变               │
       ↓         │            ↓                                 │
  因果 GQA       │  线性得 Q,K,V → RoPE(Q,K) → QK-Norm →        │
                 │  QK^T/√d_k → 因果掩码 → softmax → 乘 V       │
                 │  → 多头拼接 → W_O                            │
       ↓         │            ↓                                 │
       + ←──────┼── 残差（加「进注意力前」的 hidden）            │
       ↓         │            ↓                                 │
  RMSNorm        │            ↓                                 │
       ↓         │            ↓                                 │
  FFN            │  稠密：SwiGLU；MoE：门控 + 稀疏专家（§9）     │
       ↓         │            ↓                                 │
  本层输出       │  + 残差 → 下一层 或 最后的 LM Head（§10）   │
                 └──────────────────────────────────────────────┘

💡 和 2017 年「经典 Transformer Decoder」示意图差在哪？ 经典图常是 Post-Norm 、在 Embedding 上加绝对位置 、FFN 用 ReLU 。Qwen3 用的是 Pre-Norm + RMSNorm + RoPE + SwiGLU + GQA + QK-Norm ，且 无 Encoder------这是当前开源 LLM 常见配方。

2.4 推理时的形状与复杂度直觉

每一层主路径上，每个 token 仍是 d model d_{\text{model}} dmodel 维 ；整句可记为 L × d model L \times d_{\text{model}} L×dmodel ，进出一层形状不变。
自注意力 在长度 L L L 上两两算相似度，主项 O ( L 2 ) O(L^2) O(L2) ；工程上常用 FlashAttention 等融合实现，避免显式存满 L × L L \times L L×L 矩阵。
FFN 对每个位置独立计算，不混合不同位置；GQA 让 KV Cache 随 KV 头数 增长，而非随 Query 头数满额增长。

🔍 实际例子 ：Qwen3-8B 常见配置 d model = 4096 d_{\text{model}}=4096 dmodel=4096， N = 36 N=36 N=36 ，32 个 Q 头 / 8 个 KV 头 。若 L = 2048 L=2048 L=2048，每层主路径张量多为 2048×4096 ；缓存里 K、V 只按 8 组 存，而不是 32 组。

下文 §3 起按模块拆开，写公式并与 Qwen 1 / Qwen 2 对照。

3. 从文本到第一层 Decoder：Tokenizer、Embedding、绑权与位置

模型不直接读字符串，只读 token ID 序列 。流程可记为：字符串 → Tokenizer → ID 序列 → Embedding 矩阵 X X X ；位置不写在 X X X 上，而在后面每一层的 RoPE 里旋进 Q、K。

3.1 Tokenizer：BBPE 在做什么

直觉：像把一句话切成一块块「乐高」；每块对应词表里一个 token ，计算机里是一个整数 ID。

Qwen3 沿用 Qwen 系列的 byte-level BPE（BBPE） ：先在 UTF-8 字节 上建立可合并单元，再迭代合并高频片段，减轻多语 OOV（词表外） 问题，并兼顾 压缩率（同样字数用更少 token，推理常按 token 计费）。