Qwen,DeepSeek,Hunyuan等多种大模型的技术解读

Qwen

Qwen3 Technical Report

一、模型架构

1. 模型规模系列

Qwen3包含8个模型，分为两大类：

Dense（稠密）模型 - 6个：

MoE（专家混合）模型 - 2个：

2. 核心架构特点

所有Qwen3模型采用类似的基础架构，包括：

Grouped Query Attention (GQA)：通过在多个Query头之间共享Key/Value头来优化推理速度和内存使用
SwiGLU激活函数
Rotary Positional Embeddings (RoPE)：旋转位置编码
RMSNorm：预归一化
QK-Norm：应用于所有模型的注意力机制以确保训练稳定性
移除了Qwen2中的QKV-bias

上下文长度：

小模型（0.6B/1.7B/4B）：32K tokens
大模型（8B/14B/32B及MoE模型）：128K tokens

3. MoE架构特色

Qwen3-MoE模型采用细粒度专家分割，共有128个专家，每个token激活8个专家。关键改进包括：

不使用共享专家（与Qwen2.5-MoE不同）
采用全局批次负载平衡损失来鼓励专家专业化

二、预训练（Pretraining）

1. 数据规模

训练数据达到约36万亿tokens，覆盖119种语言和方言，相比Qwen2.5从29种扩展到119种

数据来源包括：

高质量网页内容
使用Qwen2.5-VL从PDF文档中提取并精炼的文本
使用Qwen2.5-Math和Qwen2.5-Coder生成的数万亿合成数据
STEM、编程、推理任务、书籍、多语言文本

2. 三阶段预训练策略

阶段1：通用阶段（S1）

使用超过30万亿tokens训练，序列长度4096
学习基础语言能力和通用世界知识
覆盖119种语言

阶段2：推理阶段（S2）

使用约5万亿高质量tokens，增加STEM、编码、推理和合成数据的比例
加速学习率衰减
提升推理能力

阶段3：长文本阶段

使用数千亿tokens训练，序列长度32768
75%的文本长度在16384-32768之间，25%在4096-16384之间
使用ABF技术将RoPE基频从10000提升到1000000
引入YARN和Dual Chunk Attention（DCA）实现4倍序列长度扩展

3. Scaling Law指导

通过三阶段预训练过程的全面scaling law研究，系统调优关键超参数（如学习率调度器和批次大小），为dense和MoE模型分别设置

三、后训练（Post-training）

Qwen3的核心创新在于统一框架下的双模式系统：

1. 四阶段训练流程

阶段1：长CoT冷启动（Long-CoT Cold Start）

构建包含数学、编程、逻辑推理和STEM问题的综合数据集
使用QwQ-32B生成N个候选响应
严格过滤：去除错误答案、重复内容、猜测、不一致等
目标是建立基础推理模式而不过度强调立即性能

阶段2：推理强化学习（Reasoning RL）

收集3995个查询-验证器对，使用GRPO算法
采用大批次和高rollout数
结合off-policy训练提高样本效率
旗舰模型Qwen3-235B-A22B的AIME'24分数从70.1提升到85.1（170个RL训练步骤）

阶段3：思维模式融合（Thinking Mode Fusion）

这是Qwen3的关键创新！

Chat模板设计：

复制代码

Thinking模式：
<|im_start|>user
{query} /think<|im_end|>
<|im_start|>assistant
<think>
{思维内容}
</think>
{回答}<|im_end|>

Non-thinking模式：
<|im_start|>user
{query} /no_think<|im_end|>
<|im_start|>assistant
<think>
</think>
{回答}<|im_end|>

使用/think和/no_think标志让用户动态切换模型思维过程
对于非思维模式样本，保留空的thinking块以确保内部格式一致性
默认为思维模式

思维预算机制（Thinking Budget）：

当思维长度达到用户定义阈值时，手动停止思维并插入指令："考虑到用户的时间限制，我必须直接基于当前思考给出解决方案。\n.\n\n"
这种能力不是显式训练的，而是作为思维模式融合的自然结果出现

阶段4：通用强化学习（General RL）

目标是广泛提升各种场景下的能力和稳定性，建立了覆盖20多个任务的复杂奖励系统：

核心能力：

指令遵循：准确解释内容、格式、长度要求
格式遵循：响应/think和/no_think标志，正确使用标签
偏好对齐：提升有用性、参与度和风格
Agent能力：通过多轮交互训练工具调用
特殊场景：如RAG任务中减少幻觉

使用三种奖励类型：

基于规则的奖励
带参考答案的模型奖励
无参考答案的模型奖励（从人类偏好数据训练）

2. Strong-to-Weak蒸馏

这是优化轻量级模型的专门流程，包括5个dense模型和1个MoE模型

两阶段过程：

阶段1：Off-policy蒸馏

结合教师模型在/think和/no_think模式下的输出
帮助学生模型建立基础推理能力和模式切换能力

阶段2：On-policy蒸馏

学生模型生成on-policy序列，然后通过最小化与教师模型（Qwen3-32B或Qwen3-235B-A22B）的KL散度来微调
实验显示蒸馏比强化学习获得更好的即时性能（Pass@1）和探索能力（Pass@64），且仅需约1/10的GPU小时

三、关键创新总结

双模式统一框架：无需在不同模型（如GPT-4o和QwQ-32B）之间切换
思维预算控制：用户可以根据任务复杂度自适应分配计算资源，平衡延迟和性能
效率突破：Qwen3-MoE基础模型仅使用Qwen2.5 dense基础模型10%的激活参数就能达到相当性能
性能提升：Qwen3-1.7B/4B/8B/14B/32B-Base的性能分别相当于Qwen2.5-3B/7B/14B/32B/72B-Base

Qwen2.5-VL Technical Report

Qwen2.5-VL 架构与训练详解

一、模型架构

Qwen2.5-VL由三个核心组件组成：

1. 视觉编码器（Vision Encoder）

基础架构：重新设计的Vision Transformer (ViT)
创新设计 ：
- 采用窗口注意力机制（Window Attention）：大部分层使用窗口大小为112×112的局部注意力，仅4层使用全局注意力
- 支持原生动态分辨率：输入图像调整为28的倍数，以14×14的patch进行切分
- 使用2D-RoPE位置编码来捕捉空间关系
- 视频处理：将连续两帧分组，扩展到3D patch分割
架构细节 ：
- Hidden Size: 1280
- 层数: 32层
- 激活函数: SwiGLU
- 归一化: RMSNorm

2. 视觉-语言融合器（Vision-Language Merger）

设计：基于MLP的简单高效方案
压缩策略：将相邻的4个patch特征分组，通过两层MLP投影到与LLM文本嵌入相同的维度
作用：在保持灵活性的同时减少计算成本

3. 大语言模型（LLM）

基础：基于Qwen2.5 LLM初始化
改进：将1D RoPE升级为多模态RoPE对齐到绝对时间 （MRoPE Aligned to Absolute Time）
- 包含三个组件：时间、高度、宽度
- 关键创新：时间ID与视频的实际时间戳对齐，而非仅与帧数相关

4. 三种规模配置

模型	LLM Hidden Size	LLM层数	训练Tokens
Qwen2.5-VL-3B	2048	36	4.1T
Qwen2.5-VL-7B	3584	28	4.1T
Qwen2.5-VL-72B	8192	80	4.1T

二、预训练（Pre-Training）

数据规模

从Qwen2-VL的1.2T tokens扩展到约4T tokens，数据包括：

图像标注、交错图文数据
OCR数据、视觉知识
多模态学术问题
定位数据、文档解析数据
视频描述、视频定位
Agent交互数据

三阶段训练策略

第一阶段：视觉预训练

训练对象：仅训练ViT
数据量：1.5T tokens
数据类型：图像标注、视觉知识、OCR、纯文本
序列长度：8192
目的：建立ViT与语言模型的对齐基础

第二阶段：多模态预训练

训练对象：ViT + LLM全部参数
数据量：2T tokens
数据类型：交错数据、VQA、视频、Grounding、Agent任务、纯文本
序列长度：8192
目的：增强复杂视觉信息处理能力

第三阶段：长上下文预训练

训练对象：ViT + LLM
数据量：0.6T tokens
数据类型：长视频、长Agent任务、长文档
序列长度：32768
目的：提升长序列推理能力

关键数据创新

交错图文数据：四级评分系统（文本质量、图文相关性、信息互补性、信息密度平衡）
绝对坐标Grounding数据：使用图像实际尺寸的坐标值，支持10,000+物体类别
文档全能解析数据：统一HTML格式表示文档（表格、图表、公式、乐谱、化学式等）
动态FPS视频数据：支持可变帧率，时间戳对齐到绝对时间

三、后训练（Post-Training）

监督微调（SFT）阶段

数据规模：约200万条数据

50%纯文本数据
50%多模态数据（图像-文本、视频-文本）

数据构成：

通用VQA、图像描述
数学问题、代码任务
文档&OCR、Grounding
视频分析、Agent交互

数据过滤流程：

第一阶段：领域分类

使用Qwen2-VL-Instag模型将QA对分为8个主域、30个子类别

第二阶段：定制化过滤

基于规则：去除重复模式、不完整响应、有害内容
基于模型：评估复杂度、正确性、完整性、清晰度、相关性

拒绝采样（Rejection Sampling）：

针对数学、代码、领域VQA等需要复杂推理的任务
使用中间版本模型生成，仅保留与标准答案匹配的样本
增强思维链（CoT）推理能力

直接偏好优化（DPO）阶段

冻结参数：ViT参数保持冻结
数据类型：图像-文本和纯文本偏好数据
训练策略：每个样本仅处理一次，确保高效优化
目标：与人类偏好对齐

训练优化

动态数据打包：

根据LLM输入序列长度动态打包样本
确保各GPU计算负载一致
阶段1-2：序列长度8192
阶段3：序列长度32768

四、核心技术亮点

原生动态分辨率：直接使用图像实际尺寸，无需归一化坐标
绝对时间编码：MRoPE时间ID与视频时间戳对齐，理解事件节奏
窗口注意力：计算复杂度从O(n²)降至O(n)
动态FPS采样：适应不同帧率的视频内容
统一HTML文档格式：整合布局、文本、图表、插图

DeepSeek

DeepSeek-V2 架构与训练详解

一、模型架构

DeepSeek-V2是一个创新的MoE（混合专家）大语言模型，具有以下核心特点：

基本配置

总参数: 236B
激活参数: 每个token激活21B参数
上下文长度: 128K tokens
层数: 60层
隐藏维度: 5120

1. Multi-head Latent Attention (MLA) - 高效推理的关键

MLA是DeepSeek-V2最重要的创新之一，通过低秩KV联合压缩大幅减少推理时的KV缓存：

核心机制：

KV联合压缩：
复制代码
```
c_KV = W_DKV × h_t  (压缩到潜在向量)
k_C = W_UK × c_KV
v_C = W_UV × c_KV
```
- KV压缩维度 d_c = 512 (相比标准的 128×128=16384 大幅减少)
- 推理时只需缓存压缩后的潜在向量 c_KV
解耦的RoPE策略：
- 为避免RoPE与低秩压缩冲突，使用额外的多头查询 q_R 和共享键 k_R 来承载RoPE
- 维度 d_R_h = 64（每个头）

性能优势：

相比DeepSeek 67B，KV缓存减少93.3%
每个token的KV缓存仅为 (d_c + d_R_h)×l = (512 + 64)×60 ≈ 34.6K 元素
相当于GQA只有2.25个组，但性能优于标准MHA

2. DeepSeekMoE - 经济训练的核心

DeepSeekMoE采用细粒度专家分割 和共享专家隔离策略：

架构设计：

共享专家: 2个（所有token都会激活）
路由专家: 160个
激活专家数: 6个路由专家
专家中间维度: 1536
部署: 除第一层外，所有FFN都替换为MoE层

关键机制：

(1) 设备受限路由 (Device-Limited Routing)

将160个路由专家分布在8个设备上（D=8）
每个token最多路由到3个设备（M=3）
控制通信开销

(2) 三重负载均衡损失

复制代码

总损失 = 专家级均衡损失 + 设备级均衡损失 + 通信均衡损失
L = α₁×L_ExpBal + α₂×L_DevBal + α₃×L_CommBal

α₁ = 0.003, α₂ = 0.05, α₃ = 0.02

(3) Token丢弃策略

训练时采用设备级token丢弃
每个设备的容量因子为1.0
确保约10%的训练序列永不丢弃token

3. 注意力机制对比

机制	KV缓存/token	性能
MHA	2n_h × d_h × l	强
GQA	2n_g × d_h × l	中等
MQA	2d_h × l	弱
MLA	(d_c + d_R_h) × l ≈ 4.5d_h × l	更强

二、预训练 (Pre-Training)

数据构建

总量: 8.1T tokens
语言分布: 中文tokens比英文tokens多约12%
词表: 100K (Byte-level BPE)
序列长度: 4K

数据质量提升：

扩展数据量，优化清洗流程，恢复被误删的大量数据
增加中文数据比例
改进基于质量的过滤算法
过滤有争议内容以减少数据偏见

训练策略

优化器配置：

AdamW优化器
β₁ = 0.9, β₂ = 0.95
weight_decay = 0.1
最大学习率 = 2.4×10⁻⁴
梯度裁剪范数 = 1.0

学习率调度：

Warmup阶段: 前2K步线性增长到最大值
第一次衰减: 训练约60%的tokens后，学习率×0.316
第二次衰减: 训练约90%的tokens后，再次×0.316

批次大小调度：

前225B tokens: 从2304逐渐增加到9216
之后保持9216

并行策略：

16路零气泡流水线并行
8路专家并行
ZeRO-1数据并行
无需张量并行（减少通信开销）

训练效率

在H800集群上训练
训练每T tokens仅需172.8K GPU小时
相比DeepSeek 67B（300.6K GPU小时），节省42.5%训练成本

长上下文扩展

使用YaRN方法将4K扩展到128K
参数设置: scale s=40, α=1, β=32
额外训练1000步，序列长度32K，批次大小576
在"Needle In A Haystack"测试中表现优异

三、后训练 (Post-Training)

监督微调 (SFT)

数据构成：

总量: 1.5M实例
帮助性数据: 1.2M
安全性数据: 0.3M

数据改进：

提高数据质量以减少幻觉
增强写作能力
优化指令遵循能力

训练配置：

训练2个epoch
学习率 = 5×10⁻⁶
使用ChatML格式

强化学习 (RL)

算法: Group Relative Policy Optimization (GRPO)

无需critic模型（通常与policy模型同等大小）
使用组得分估计基线
节省训练成本

目标函数：

复制代码

J_GRPO = E[最小化(ratio × A_i, clip(ratio, 1-ε, 1+ε) × A_i)] - β×D_KL
其中 ratio = π_θ(o_i|q) / π_θ_old(o_i|q)

两阶段训练策略：

(1) 推理对齐阶段

训练推理奖励模型 RM_reasoning
针对代码和数学任务
奖励: r_i = RM_reasoning(o_i)

(2) 人类偏好对齐阶段

多奖励框架：

复制代码

r_i = c₁×RM_helpful(o_i) + c₂×RM_safety(o_i) + c₃×RM_rule(o_i)

有用性RM、安全性RM、基于规则的RM

奖励模型训练：

使用DeepSeek-V2 Chat (SFT)初始化
代码偏好数据基于编译器反馈
数学偏好数据基于真实标签
采用point-wise或pair-wise损失

工程优化：

混合引擎：训练和推理采用不同并行策略
使用vLLM大批次推理加速
精心设计的CPU-GPU模型卸载/加载调度

四、性能亮点

训练效率

训练成本降低42.5%
KV缓存减少93.3%
生成吞吐量提升5.76倍

推理效率

部署时使用FP8精度
KV缓存量化到平均6 bits
单节点8×H800: 生成吞吐量>50K tokens/秒
Prompt输入吞吐量>100K tokens/秒

模型性能

MMLU: 78.5%
GSM8K: 79.2%
HumanEval: 48.8%
仅21B激活参数达到顶级开源模型性能

对话能力

AlpacaEval 2.0: 38.9% (长度控制胜率)
MT-Bench: 8.97
AlignBench (中文): 7.91 (超越所有开源模型)

五、关键创新总结

MLA: 通过低秩KV联合压缩实现高效推理，性能优于MHA但缓存仅为其7%
DeepSeekMoE: 细粒度专家分割+共享专家隔离，实现经济训练
设备受限路由: 控制MoE通信开销
两阶段RL: 先推理对齐，后人类偏好对齐
GRPO算法: 无需critic模型的高效RL训练

DeepSeek-V2证明了通过架构创新，可以在显著降低训练和推理成本的同时，达到甚至超越密集模型的性能。