技术栈

量化技术

叶庭云
16 小时前
大语言模型·flashattention·量化技术·w8a8 量化·w4a8 量化·稀疏量化·kv cache 量化
一文了解 W8A8、W4A8、稀疏量化、FlashAttention-3、KV Cache 量化W8A8(Weight 8-bit / Activation 8-bit)量化的本质是:用 8-bit 整数近似表示 FP16/FP32 的模型权重与中间激活值,并在整数域完成 GEMM(GEneral Matrix Multiplication),最终在输出端做尺度还原。 量化计算只是改变了数值 “表示形式”,没有改变模型定义的数值空间;尺度还原的作用,是在精度边界处将整数近似重新嵌回模型原始的浮点语义空间。
我是有底线的