llama-quantize是llama.cpp项目提供的量化工具，用于将FP16/FP32的GGUF模型压缩为更小的整数精度版本，从而降低内存占用并提升推理速度。

1、编译llama.cpp

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

编译（根据平台选择）

纯 CPU（Linux/Windows）

mkdir build && cd build

cmake .. && cmake --build . --config Release

NVIDIA GPU

cmake .. -DLLAMA_CUBLAS=ON && cmake --build . --config Release

Apple Silicon (Metal)

cmake .. -DLLAMA_METAL=ON && cmake --build . --config Release

编译完成后，llama-quantize 可执行文件会出现在 build/bin/目录下。

2、基本用法

llama-quantize需要三个参数：输入文件、输出文件、量化类型。

格式：./llama-quantize <输入.gguf> <输出.gguf> <量化类型>

./llama-quantize model-f16.gguf model-Q4_K_M.gguf Q4_K_M

3、量化类型详解

3.1 命名规则

格式为 Q<位数>_<变体>，其中：

位数：每个参数用多少 bit 存储（2/3/4/5/6/8）
K：K-block 量化（改进版，基于分组优化）
S/M/L：混合精度策略（Small/Medium/Large），影响不同层的精度分配

3.2 常用量化类型对照表（以7B模型为例）

|--------|----|----------|--------------|---------|
| 量化类型 | 位数 | 模型大小 | 精度损失 | 推荐场景 |
| Q2_K | 2 | ~2.8 GB | 较大（5-8%） | 极低内存设备 |
| Q3_K_M | 3 | ~3.5 GB | 中等（2-4%） | 资源受限场景 |
| Q4_K_S | 4 | ~3.6 GB | 较小（~2%） | 显存与性能平衡 |
| Q4_K_M | 4 | ~4.4 GB | 小（1-2%） | ⭐ 通用推荐 |
| Q5_K_M | 5 | ~5.2 GB | 极小（0.5-1%） | 高精度需求 |
| Q6_K | 6 | ~6.0 GB | 几乎无损（~0.5%） | 接近原始精度 |
| Q8_0 | 8 | ~7.5 GB | 无损（<0.1%） | 研究调试 |

3.3 混合精度策略说明

Q4_K_M并非所有层都用4-bit，而是采用混合精度：

注意力层的wv和全连接层的w2 →使用更高精度（如 Q6_K）
其余层→使用 Q4_K

这就是为什么Q4_K_M的精度损失远小于简单的4-bit均匀量化。

4、完整工作流示例

从ModelScope或HuggingFace模型到量化GGUF的完整流程：

4.1下载模型

git lfs install

git clone https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct

4.2转换为 FP16 GGUF

python3 convert_hf_to_gguf.py ./Llama-3.2-1B-Instruct \

--outtype f16 \

--outfile llama-3.2-1b.f16.gguf

4.3量化为Q4_K_M

./llama-quantize llama-3.2-1b.f16.gguf llama-3.2-1b.Q4_K_M.gguf Q4_K_M

4.4测试推理

./llama-cli -m llama-3.2-1b.Q4_K_M.gguf -p "Hello, how are you?" -n 128

也可以一步到位，转换时直接指定量化类型：

python3 convert_hf_to_gguf.py ./Llama-3.2-1B-Instruct \

--outtype q4_k_m \

--outfile llama-3.2-1b.Q4_K_M.gguf

5、如何选择量化类型？

|---------------|-----------------|
| 你的情况 | 推荐量化 |
| 内存充足，追求最佳效果 | Q8_0 或 Q6_K |
| 通用场景，平衡优先 | Q4_K_M（最推荐） |
| 精度要求较高 | Q5_K_M |
| 内存紧张（如 4-8GB） | Q4_K_S 或 Q3_K_M |
| 极端受限（如手机/嵌入式） | Q2_K |

经验法则：对于大多数对话、理解和生成任务，Q4_K_M甚至 Q3_K_M带来的感知质量下降是微乎其微的，尤其在2B-7B参数量的模型上。推理速度的提升却是立竿见影的。

6、批量量化脚本

如果需要同时生成多种量化版本：

#!/bin/bash

INPUT="model-f16.gguf"

for QUANT in Q4_K_S Q4_K_M Q5_K_M Q6_K Q8_0; do

OUTPUT="model-${QUANT}.gguf"

echo "量化为 ${QUANT}..."

./llama-quantize " $INPUT" "$ OUTPUT" "$QUANT"

echo "完成: $(ls -lh "$ OUTPUT" | awk '{print $5}')"

done

7、注意事项

输入必须是GGUF格式：llama-quantize只能处理.gguf文件，不能直接处理Safetensors。需要先用convert_hf_to_gguf.py 转换
量化是不可逆的：一旦量化，无法恢复原始精度
建议从FP16开始量化：不要对已经量化过的模型再次量化（如Q8→Q4），会导致精度叠加损失。
量化过程需要较多内存：量化时会将整个模型加载到内存中，确保有足够的

llama-quantize量化模型

编译（根据平台选择）

纯 CPU（Linux/Windows）

NVIDIA GPU

Apple Silicon (Metal)