大模型数值格式总结

SimpleLearingAI2026-05-18 15:32

一、核心基础概述

大模型常用的数值格式主要分为两大类：浮点格式（遵循IEEE标准，由符号位+指数位+尾数位组成，原生存储小数）和整数量化格式（无指数位，通过将小数映射为固定区间整数来实现压缩）。

核心规律

位数越少，显存占用越小、计算速度越快，但精度越低。
指数位越多，数值范围越大，越不易溢出。
尾数位越多，小数精度越高。

二、全数值格式详情

格式类型	具体格式	总位数	结构 (符号/指数/尾数)	核心特点	单值占用	适配场景
浮点格式	FP64 (双精度)	64	1 / 11 / 52	精度天花板，数值范围极大，速度最慢、显存占用最高	8B	科学计算、高精度仿真，大模型不用
	FP32 (单精度)	32	1 / 8 / 23	精度与范围平衡，通用基准，速度慢、显存占用高	4B	小模型调试，大模型不推荐
	BF16	16	1 / 8 / 7	范围与FP32接近，不易溢出，精度损失小，速度快	2B	大模型训练/推理首选
	FP16 (半精度)	16	1 / 5 / 10	小数精度高，范围小，极易溢出，稳定性差	2B	小模型可用，大模型慎用
	FP8-E4M3	8	1 / 4 / 3	8位浮点，精度优先，范围中等	1B	新卡推理（权重计算）
	FP8-E5M2	8	1 / 5 / 2	8位浮点，范围优先，精度略低	1B	新卡推理（梯度/激活计算）
整数量化格式	INT16	16	无指数位	轻度量化，精度损失小	2B	大模型场景基本不用
	INT8	8	无指数位	常用量化格式，需校准，精度小幅下降	1B	大模型量化推理（显存紧张时）
	INT4	4	无指数位	深度压缩，精度下降明显	0.5B	极端显存紧张的推理场景
	INT2	2	无指数位	极端压缩，精度极差	0.25B	极少使用

三、显卡架构及格式原生支持详情

注：❌ 不支持；⚠️ 硬件存在但软件限速；✅ 原生硬件加速。

显卡架构	代表型号	FP64	FP32	FP16	BF16	FP8	INT8/INT4
Turing (图灵)	RTX 2060/2070/2080、T4	✅	✅	✅	❌	❌	✅
Ampere (消费级)	RTX 3090、A10	✅	✅	✅	⚠️(硬件支持，速度慢)	❌	✅
Ampere (数据中心)	A100/A800	✅	✅	✅	✅	❌	✅
Ada Lovelace	RTX 4090、L4	✅	✅	✅	✅	❌(软件模拟)	✅
Hopper	H100/H200	✅	✅	✅	✅	✅	✅
Blackwell	RTX 5090、B100	✅	✅	✅	✅	✅(原生)	✅(支持FP4实验)

四、主流量化算法对比

算法名称	核心原理	优点	缺点	适用场景
GPTQ	基于Hessian矩阵逐层PTQ量化	精度稳、生态成熟	量化速度较慢，极低精度衰减大	通用PTQ，AutoGPTQ
AWQ	激活感知权重保护重要通道	部分场景精度优于GPTQ	计算稍复杂	追求极致PTQ精度
QLoRA	INT4量化后LoRA微调	精度保持最好，支持微调	需训练数据与算力	70B及以上大模型微调

五、推理框架与硬件适配

vLLM：PagedAttention，高并发API，适配INT8/INT4。
TensorRT‑LLM：NVIDIA官方，低延迟，FP8仅H100原生可用。
llama.cpp：轻量C/C++，GGUF/INT4，本地CPU/显卡部署。

六、关键核心要点（必记）

训练首选：BF16（A100+、40系、H100、Blackwell）；FP32慢、FP16易溢出、量化精度不足。
推理优先级：BF16＞FP8(H100)＞INT8＞INT4；避开FP16、FP32。
精度排序：FP64＞FP32＞BF16≈FP16＞FP8‑E4M3＞FP8‑E5M2＞INT8＞INT4＞INT2
稳定性（不易溢出）：FP64≈FP32≈BF16＞FP8‑E5M2＞FP8‑E4M3＞FP16＞INT8
显卡分界
- BF16：A100+、40系及以后；20/30系消费卡限速/不原生
- FP8：仅H100、Blackwell原生；40系软件模拟
- INT8/INT4：20系及以后带Tensor Core均支持

上一篇：卡梅德生物技术快报｜单 B 细胞抗体筛选服务：技术架构、流程实现与数据验证

下一篇：Fluwx 6.0 预览版本他来了

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）08【AI前线观察】2026年国产开源大模型全面横评：从 DeepSeek V4 到 Kimi K3，谁才是开发者的最优选择？092026 年 AI 大模型 & AI 编程工具实战全总结 102026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元