大模型数值格式总结

一、核心基础概述

大模型常用的数值格式主要分为两大类:浮点格式(遵循IEEE标准,由符号位+指数位+尾数位组成,原生存储小数)和整数量化格式(无指数位,通过将小数映射为固定区间整数来实现压缩)。

核心规律

  • 位数越少,显存占用越小、计算速度越快,但精度越低。
  • 指数位越多,数值范围越大,越不易溢出。
  • 尾数位越多,小数精度越高。

二、全数值格式详情

格式类型 具体格式 总位数 结构 (符号/指数/尾数) 核心特点 单值占用 适配场景
浮点格式 FP64 (双精度) 64 1 / 11 / 52 精度天花板,数值范围极大,速度最慢、显存占用最高 8B 科学计算、高精度仿真,大模型不用
FP32 (单精度) 32 1 / 8 / 23 精度与范围平衡,通用基准,速度慢、显存占用高 4B 小模型调试,大模型不推荐
BF16 16 1 / 8 / 7 范围与FP32接近,不易溢出,精度损失小,速度快 2B 大模型训练/推理首选
FP16 (半精度) 16 1 / 5 / 10 小数精度高,范围小,极易溢出,稳定性差 2B 小模型可用,大模型慎用
FP8-E4M3 8 1 / 4 / 3 8位浮点,精度优先,范围中等 1B 新卡推理(权重计算)
FP8-E5M2 8 1 / 5 / 2 8位浮点,范围优先,精度略低 1B 新卡推理(梯度/激活计算)
整数量化格式 INT16 16 无指数位 轻度量化,精度损失小 2B 大模型场景基本不用
INT8 8 无指数位 常用量化格式,需校准,精度小幅下降 1B 大模型量化推理(显存紧张时)
INT4 4 无指数位 深度压缩,精度下降明显 0.5B 极端显存紧张的推理场景
INT2 2 无指数位 极端压缩,精度极差 0.25B 极少使用

三、显卡架构及格式原生支持详情

注:❌ 不支持;⚠️ 硬件存在但软件限速;✅ 原生硬件加速。

显卡架构 代表型号 FP64 FP32 FP16 BF16 FP8 INT8/INT4
Turing (图灵) RTX 2060/2070/2080、T4
Ampere (消费级) RTX 3090、A10 ⚠️(硬件支持,速度慢)
Ampere (数据中心) A100/A800
Ada Lovelace RTX 4090、L4 ❌(软件模拟)
Hopper H100/H200
Blackwell RTX 5090、B100 ✅(原生) ✅(支持FP4实验)

四、主流量化算法对比

算法名称 核心原理 优点 缺点 适用场景
GPTQ 基于Hessian矩阵逐层PTQ量化 精度稳、生态成熟 量化速度较慢,极低精度衰减大 通用PTQ,AutoGPTQ
AWQ 激活感知权重保护重要通道 部分场景精度优于GPTQ 计算稍复杂 追求极致PTQ精度
QLoRA INT4量化后LoRA微调 精度保持最好,支持微调 需训练数据与算力 70B及以上大模型微调

五、推理框架与硬件适配

  • vLLM:PagedAttention,高并发API,适配INT8/INT4。
  • TensorRT‑LLM:NVIDIA官方,低延迟,FP8仅H100原生可用。
  • llama.cpp:轻量C/C++,GGUF/INT4,本地CPU/显卡部署。

六、关键核心要点(必记)

  1. 训练首选:BF16(A100+、40系、H100、Blackwell);FP32慢、FP16易溢出、量化精度不足。
  2. 推理优先级:BF16>FP8(H100)>INT8>INT4;避开FP16、FP32。
  3. 精度排序:FP64>FP32>BF16≈FP16>FP8‑E4M3>FP8‑E5M2>INT8>INT4>INT2
  4. 稳定性(不易溢出):FP64≈FP32≈BF16>FP8‑E5M2>FP8‑E4M3>FP16>INT8
  5. 显卡分界
    • BF16:A100+、40系及以后;20/30系消费卡限速/不原生
    • FP8:仅H100、Blackwell原生;40系软件模拟
    • INT8/INT4:20系及以后带Tensor Core均支持
相关推荐
Resistance丶未来4 天前
从零构建大语言模型:核心原理与实战落地
人工智能·ai·语言模型·自然语言处理·nlp·多模态大模型·ai工具
audyxiao00118 天前
智能交通顶刊TITS论文分享|一种基于文本提示引导的多模态大语言模型的交通流预测框架
人工智能·深度学习·多模态大模型
_张一凡1 个月前
【AIGC面试面经第七期】多模态大模型Qwen-Vl系列面试问题汇总
aigc·面试面经·多模态大模型·qwen3
羊小猪~~1 个月前
LLM--VIT简介
大模型·llm·nlp·多模态·多模态大模型·vit·ai算法
@BangBang2 个月前
双向注意力(Bidirectional Attention)详解
多模态大模型
M宝可梦2 个月前
谢赛宁 x LeCun x Meta 多模态新作:Beyond Language Modeling (Insight 拉满)
人工智能·多模态大模型·scaling law·统一理解生成模型
OpenMMLab2 个月前
Agent范式转移:组织、协作与商业的重构
人工智能·大模型·多模态大模型·智能体·openclaw
loong_XL3 个月前
qwen3.5 文字、图像、视频多模态openai接口案例
音视频·qwen·多模态大模型
山顶夕景3 个月前
【VLM】Qwen3-VL-SFT微调简要流程
llm·多模态大模型·vlm