模型压缩与量化：让AI更轻更快

模型压缩与量化的必要性

现代深度学习模型参数量庞大，计算复杂度高，难以直接部署在资源受限的设备（如移动端、嵌入式设备）上。模型压缩与量化技术通过减少模型体积和计算量，提升推理速度，降低功耗，同时尽可能保持模型精度。

模型压缩的核心方法

剪枝（Pruning）

移除模型中冗余的权重或神经元。结构化剪枝直接删除整个通道或层，非结构化剪枝则删除单个权重。剪枝后需微调模型以恢复性能。

知识蒸馏（Knowledge Distillation）

用小模型（学生模型）学习大模型（教师模型）的输出分布或中间特征。通过软标签（Soft Targets）传递教师模型的泛化能力，提升小模型的表现。

低秩分解（Low-Rank Factorization）

将大矩阵分解为多个小矩阵的乘积，减少参数量。例如，全连接层的权重矩阵 ( W \in \mathbb{R}^{m \times n} ) 可分解为 ( W = UV )，其中 ( U \in \mathbb{R}^{m \times k} )，( V \in \mathbb{R}^{k \times n} )，且 ( k \ll m,n )。

模型量化的关键技术

权重量化（Weight Quantization）

将浮点权重（如FP32）转换为低比特整数（如INT8）。对称量化公式：

w_{quant} = \\text{round}\\left(\\frac{w}{\\text{scale}}\\right), \\quad \\text{scale} = \\frac{\\max(\|w\|)}{2\^{b-1}-1}

其中 ( b ) 为比特数。

动态量化与静态量化

动态量化在推理时实时计算激活值的缩放因子，静态量化则通过校准数据预先确定缩放因子。后者更适合硬件加速。

二值化/三值化（Binary/Ternary Quantization）

极端情况下，权重可压缩为±1（二值化）或±1,0（三值化）。例如，二值化公式：

w_{bin} = \\text{sign}(w) \\cdot \\text{mean}(\|w\|)

实际应用与工具

框架支持 ：PyTorch提供torch.quantization模块，TensorFlow支持TFLite量化工具链。
硬件适配：英伟达TensorRT、高通AI引擎等均优化了低比特推理。
部署建议：移动端优先选择INT8量化，边缘设备可尝试混合精度（FP16+INT8）。

挑战与平衡

量化可能引入精度损失，需通过量化感知训练（QAT）或校准数据微调。剪枝和蒸馏需权衡压缩率与任务性能，通常结合多种技术实现最佳效果。