量化技术 - 量化技术技术,学习,经验文章

叶庭云

2 个月前

一文了解 W8A8、W4A8、稀疏量化、FlashAttention-3、KV Cache 量化W8A8（Weight 8-bit / Activation 8-bit）量化的本质是：用 8-bit 整数近似表示 FP16/FP32 的模型权重与中间激活值，并在整数域完成 GEMM（GEneral Matrix Multiplication），最终在输出端做尺度还原。量化计算只是改变了数值 “表示形式”，没有改变模型定义的数值空间；尺度还原的作用，是在精度边界处将整数近似重新嵌回模型原始的浮点语义空间。