一、核心基础概述
大模型常用的数值格式主要分为两大类:浮点格式(遵循IEEE标准,由符号位+指数位+尾数位组成,原生存储小数)和整数量化格式(无指数位,通过将小数映射为固定区间整数来实现压缩)。
核心规律
- 位数越少,显存占用越小、计算速度越快,但精度越低。
- 指数位越多,数值范围越大,越不易溢出。
- 尾数位越多,小数精度越高。
二、全数值格式详情
| 格式类型 | 具体格式 | 总位数 | 结构 (符号/指数/尾数) | 核心特点 | 单值占用 | 适配场景 |
|---|---|---|---|---|---|---|
| 浮点格式 | FP64 (双精度) | 64 | 1 / 11 / 52 | 精度天花板,数值范围极大,速度最慢、显存占用最高 | 8B | 科学计算、高精度仿真,大模型不用 |
| FP32 (单精度) | 32 | 1 / 8 / 23 | 精度与范围平衡,通用基准,速度慢、显存占用高 | 4B | 小模型调试,大模型不推荐 | |
| BF16 | 16 | 1 / 8 / 7 | 范围与FP32接近,不易溢出,精度损失小,速度快 | 2B | 大模型训练/推理首选 | |
| FP16 (半精度) | 16 | 1 / 5 / 10 | 小数精度高,范围小,极易溢出,稳定性差 | 2B | 小模型可用,大模型慎用 | |
| FP8-E4M3 | 8 | 1 / 4 / 3 | 8位浮点,精度优先,范围中等 | 1B | 新卡推理(权重计算) | |
| FP8-E5M2 | 8 | 1 / 5 / 2 | 8位浮点,范围优先,精度略低 | 1B | 新卡推理(梯度/激活计算) | |
| 整数量化格式 | INT16 | 16 | 无指数位 | 轻度量化,精度损失小 | 2B | 大模型场景基本不用 |
| INT8 | 8 | 无指数位 | 常用量化格式,需校准,精度小幅下降 | 1B | 大模型量化推理(显存紧张时) | |
| INT4 | 4 | 无指数位 | 深度压缩,精度下降明显 | 0.5B | 极端显存紧张的推理场景 | |
| INT2 | 2 | 无指数位 | 极端压缩,精度极差 | 0.25B | 极少使用 |
三、显卡架构及格式原生支持详情
注:❌ 不支持;⚠️ 硬件存在但软件限速;✅ 原生硬件加速。
| 显卡架构 | 代表型号 | FP64 | FP32 | FP16 | BF16 | FP8 | INT8/INT4 |
|---|---|---|---|---|---|---|---|
| Turing (图灵) | RTX 2060/2070/2080、T4 | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ |
| Ampere (消费级) | RTX 3090、A10 | ✅ | ✅ | ✅ | ⚠️(硬件支持,速度慢) | ❌ | ✅ |
| Ampere (数据中心) | A100/A800 | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
| Ada Lovelace | RTX 4090、L4 | ✅ | ✅ | ✅ | ✅ | ❌(软件模拟) | ✅ |
| Hopper | H100/H200 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Blackwell | RTX 5090、B100 | ✅ | ✅ | ✅ | ✅ | ✅(原生) | ✅(支持FP4实验) |
四、主流量化算法对比
| 算法名称 | 核心原理 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|---|
| GPTQ | 基于Hessian矩阵逐层PTQ量化 | 精度稳、生态成熟 | 量化速度较慢,极低精度衰减大 | 通用PTQ,AutoGPTQ |
| AWQ | 激活感知权重保护重要通道 | 部分场景精度优于GPTQ | 计算稍复杂 | 追求极致PTQ精度 |
| QLoRA | INT4量化后LoRA微调 | 精度保持最好,支持微调 | 需训练数据与算力 | 70B及以上大模型微调 |
五、推理框架与硬件适配
- vLLM:PagedAttention,高并发API,适配INT8/INT4。
- TensorRT‑LLM:NVIDIA官方,低延迟,FP8仅H100原生可用。
- llama.cpp:轻量C/C++,GGUF/INT4,本地CPU/显卡部署。
六、关键核心要点(必记)
- 训练首选:BF16(A100+、40系、H100、Blackwell);FP32慢、FP16易溢出、量化精度不足。
- 推理优先级:BF16>FP8(H100)>INT8>INT4;避开FP16、FP32。
- 精度排序:FP64>FP32>BF16≈FP16>FP8‑E4M3>FP8‑E5M2>INT8>INT4>INT2
- 稳定性(不易溢出):FP64≈FP32≈BF16>FP8‑E5M2>FP8‑E4M3>FP16>INT8
- 显卡分界
- BF16:A100+、40系及以后;20/30系消费卡限速/不原生
- FP8:仅H100、Blackwell原生;40系软件模拟
- INT8/INT4:20系及以后带Tensor Core均支持