PrefixQuant：基于前缀token消除离群值的大语言模型量化方法

- 一、论文概述
- 二、关键背景与相关工作
- - [1. 量化基础](#1. 量化基础)
  - [2. 离群值相关研究](#2. 离群值相关研究)
- 三、PrefixQuant核心设计
- - [1. 令牌级离群值的特征与定义](#1. 令牌级离群值的特征与定义)
  - [2. 核心模块一：前缀离群值隔离（Prefixed Outliers）](#2. 核心模块一：前缀离群值隔离（Prefixed Outliers）)
  - [3. 核心模块二：块级微调（Block-wise Fine-tuning）](#3. 核心模块二：块级微调（Block-wise Fine-tuning）)
  - [4. 量化配置对比](#4. 量化配置对比)
- 四、实验设置与结果
- - [1. 实验配置](#1. 实验配置)
  - [2. 核心实验结果](#2. 核心实验结果)
  - [3. 消融实验：验证核心模块有效性](#3. 消融实验：验证核心模块有效性)
- 五、优势与局限
- - [1. 核心优势](#1. 核心优势)
  - [2. 主要局限](#2. 主要局限)
- 六、结论

一、论文概述

核心问题：现有大语言模型（LLMs）权重-激活量化方法多聚焦于通道级离群值（channel-wise outliers），却忽视了令牌级离群值（token-wise outliers），导致量化模型精度受限。例如，2048个令牌中仅2个离群令牌就贡献了94.7%的量化误差，极端值超1000，引发54.63的量化误差。
提出方法：PrefixQuant，一种通过在KV缓存中前缀化离群令牌（prefixed tokens）有效隔离令牌级离群值的量化方案，支持动态/静态两种量化粒度（O1/O2配置），兼容W4A4KV4、W4A8KV4等主流精度。
核心优势：无需额外训练（前缀令牌检测高效）、精度超现有SOTA方法、推理速度显著提升（预填充2.74×加速、解码2.16×加速）。
代码开源：https://github.com/ChenMnZ/PrefixQuant

二、关键背景与相关工作

1. 量化基础

量化目的：降低LLMs内存占用、加速推理，核心是将全精度张量（FP16）转换为低比特整数（如4比特），转换公式为：
$X I N T = c l a m p ( ⌊ X s ⌉ + z , 0 , 2 N − 1 ) \] \[X_{INT}=clamp\\left(\\left\\lfloor\\frac{X}{s}\\right\\rceil+z, 0,2\^{N}-1\\right)\] \[XINT=clamp(⌊sX⌉+z,0,2N−1)$ 其中， ( s ) (s) (s)（步长）、(z)（零点）为量化参数，( g a m m a gamma gamma)、( b e t a beta beta)为裁剪因子。
量化类型：
- 动态量化：推理时在线计算(s)和(z)，适应性强但有额外开销；
- 静态量化：离线通过校准数据集预计算(s)和(z)，推理效率更高，支持算子融合。

2. 离群值相关研究

离群值类型	现有解决方法	局限性
通道级离群值	通道缩放（SmoothQuant）、混合精度量化（Atom）、哈达玛旋转（QuaRot）	未处理令牌级离群值
令牌级离群值	修改SoftMax行为（Quantizable Transformers）、网格搜索前缀令牌（CushionCache）	需训练依赖、耗时久（如CushionCache处理Llama-3-8B需12小时）

PrefixQuant的创新点：正交于通道级方法，无需训练即可隔离令牌级离群值，同时覆盖极大/极小值离群令牌，检测耗时仅12秒-1分钟。

三、PrefixQuant核心设计

1. 令牌级离群值的特征与定义

定义：设令牌序列绝对值张量为 ( X ∈ R T × C ) (X \in \mathbb{R}^{T×C}) (X∈RT×C)（(T)为令牌数，(C)为维度），计算每个令牌的最大值 ( M i ) (M_i) (Mi)，通过离群度 ( R i = M i m e d i a n ( M ) ) (R_i = \frac{M_i}{median(M)}) (Ri=median(M)Mi)判定：
- 上离群令牌： ( R i > 64 ) (R_i > 64) (Ri>64)（极值远大于中位数）；
- 下离群令牌： ( R i − 1 > 8 ) （ (R_i^{-1} > 8)（ (Ri−1>8)（极值远小于中位数）。
特征：
- 数量少：仅占输入序列的极小比例（如Llama-2-7B仅2个）；
- 位置集中：多分布在序列开头（初始令牌+低语义令牌如./\n）；
- 影响大：即使哈达玛旋转将极值从1000+降至15，仍导致7.88的量化误差。

2. 核心模块一：前缀离群值隔离（Prefixed Outliers）

核心思路：将高频离群令牌作为前缀添加到输入序列，约束所有离群值仅出现在前缀令牌中，其KV缓存离线预计算后复用，避免推理时生成新离群值。
具体步骤 ：
1. 选择前缀令牌：统计校准数据集的高频离群令牌，结合模型特性确定数量和内容（如Llama-2-7B为. \n [BOS]，Llama-3-8B仅[BOS]），所有模型均以[BOS]收尾；
2. 预填充KV缓存：用全精度模型一次性计算前缀令牌的K/V矩阵（ ( k ′ ∈ R o × C ) (k' \in \mathbb{R}^{o×C}) (k′∈Ro×C)、 ( v ′ ∈ R o × C ) ） (v' \in \mathbb{R}^{o×C})） (v′∈Ro×C)），推理时直接复用，前缀令牌保持全精度；
3. 分布优化效果：下投影层输入的top-1/中位数比值从461降至2.4，Q/K的中位数/min-1比值从>9降至<3.5，量化误差从7.88降至0.04。

3. 核心模块二：块级微调（Block-wise Fine-tuning）

目的：补偿量化误差，通过最小化量化模型与全精度模型的块输出MSE损失实现。
可训练参数设计：
- O1（动态量化）：将张量级裁剪因子(\gamma)、(\beta)设为可训练（避免令牌级裁剪的存储开销）；
- O2（静态量化）：直接优化量化参数(s)和(z)；
- 权重量化：沿用EfficientQAT方案，训练权重与权重量化参数。

4. 量化配置对比

配置项	PrefixQuant-O1（动态量化）	PrefixQuant-O2（静态量化）
权重量化	逐通道量化（组大小128）	逐通道量化（组大小128）
激活量化	逐令牌动态计算(s)、(z)	逐张量离线预计算(s)、(z)
KV缓存量化	逐组动态量化	逐头静态量化
核心优势	精度更高	推理速度更快（低延迟）

四、实验设置与结果

1. 实验配置

模型：Llama-2/3、Mistral-v0.3-7B、Qwen-2-7B及指令微调模型（Llama-3-Instruct）；
基线方法：QuaRot、SpinQuant、Atom、DuQuant、QoQ；
评估指标：WikiText2困惑度（PPL）、5项零样本推理任务（PIQA/ARC/HellaSwag/WinoGrande/MMLU）准确率、推理速度（预填充/解码）；
微调参数：Pile数据集512样本（序列长度1024），W4A8KV4训练10轮、W4A4KV4训练20轮。

2. 核心实验结果

（1）精度性能：全面超越SOTA

模型	量化精度	方法	PPL	零样本准确率（Avg.）
Llama-3-8B	W4A4KV4	SpinQuant	7.36	68.23%
		PrefixQuant-O1	7.26	71.31%（+3.08%）
		PrefixQuant-O2	7.43	71.08%（+2.85%）
Llama-3-8B	W4A8KV4	QoQ	6.89	71.35%
		PrefixQuant-O1	6.59	72.57%（+1.22%）
Llama-3-8B（MMLU）	W4A4KV4	SpinQuant	-	51.93%
		PrefixQuant-O1	-	56.00%（+4.07%）

（2）推理速度：显著提升

在RTX 3090 GPU、Llama-2-7B W4A4配置下：

方法	预填充耗时（2048令牌）	解码速度（token/s）
FP16（全精度）	489ms	43
PrefixQuant-O1	183ms（2.67×加速）	91（2.11×加速）
PrefixQuant-O2	178ms（2.74×加速）	93（2.16×加速）

（3）泛化能力：适配多场景

长上下文（8192序列长度）：仍优于基线方法，Llama-3-8B W4A4KV4的PPL为6.58（DuQuant为7.27）；
纯权重量化：W2A16配置下，Llama-3-70B的平均准确率比EfficientQAT高4.73个点；
其他模型：在Mistral、Qwen及指令微调模型上均保持稳定精度提升。

3. 消融实验：验证核心模块有效性

以Llama-3-8B W4A4KV4为例：

模块组合	PPL	关键结论
基础（RTN+旋转+网格搜索）	11.70	无前缀隔离时精度较差
+ 前缀离群值隔离	7.53	隔离模块使PPL降低36%
+ 块级微调	7.23	微调进一步补偿量化误差

五、优势与局限

1. 核心优势

精度领先：首次实现静态量化（O2）超越动态量化基线，令牌级离群值隔离效果显著；
效率极高：前缀令牌检测耗时0.2-1分钟，推理速度2.16-2.74×加速，额外存储可忽略；
兼容性强：可与哈达玛旋转等通道级方法结合，适配权重-激活联合量化/纯权重量化，支持多模型；
低改造成本：无需重训模型，块级微调数据需求少（512×1024令牌）。

2. 主要局限

前缀令牌需定制：不同模型的高频离群令牌不同，需针对模型+校准数据集统计；
超大模型微调耗时：Llama-3-70B微调需17小时（W4A4KV4）；
极端长上下文适配待验证：当前仅验证8192序列长度，更长序列下离群值位置可能偏移；
小众模型/架构适配不足：未验证1B以下模型及非Transformer架构（如MoE）。

六、结论

PrefixQuant通过"前缀令牌隔离令牌级离群值+块级微调补偿误差"的核心设计，在多模型、多精度、多粒度量化场景下实现了精度与速度的双重突破。其创新点在于首次系统性解决令牌级离群值问题，打破了"静态量化精度低于动态量化"的固有认知，且具备低改造成本、强兼容性的特点，为LLMs的高效部署提供了新方案。未来可进一步优化极端长上下文适配性及小众模型兼容能力。