FP16 和 BF16 的数学表达
这里的 BFP16 通常指 BF16 / bfloat16。
FP16 和 BF16 都是 16 bit 浮点数,但位宽分配不同:
text
FP16 = 1 bit 符号位 + 5 bit 指数位 + 10 bit 尾数位
BF16 = 1 bit 符号位 + 8 bit 指数位 + 7 bit 尾数位
核心公式都是浮点数标准形式:
math
x = (-1)^s \times 2^{E-bias} \times \left(1 + \frac{M}{2^m}\right)
其中:
text
s = 符号位
E = 指数编码值
bias = 指数偏置
M = 尾数字段对应的整数
m = 尾数 bit 数
1. FP16 的数学表达
FP16,也叫 IEEE half precision。
text
总位数:16 bit
符号位:1 bit
指数位:5 bit
尾数位:10 bit
bias = 15
正常数的表达式:
math
x = (-1)^s \times 2^{E - 15} \times \left(1 + \frac{M}{2^{10}}\right)
其中:
text
E ∈ [1, 30]
M ∈ [0, 1023]
所以 FP16 的正常数范围大约是:
text
最小 normal 正数:2^-14 ≈ 6.10e-5
最大 normal 正数:65504
FP16 的精度特点:
text
尾数 10 bit
在 [1, 2) 区间,最小间隔是 2^-10 ≈ 0.0009765625
也就是说:
FP16 的小数精度比 BF16 更高。
2. BF16 的数学表达
BF16,也叫 bfloat16。
text
总位数:16 bit
符号位:1 bit
指数位:8 bit
尾数位:7 bit
bias = 127
正常数的表达式:
math
x = (-1)^s \times 2^{E - 127} \times \left(1 + \frac{M}{2^7}\right)
其中:
text
E ∈ [1, 254]
M ∈ [0, 127]
BF16 的正常数范围大约是:
text
最小 normal 正数:2^-126 ≈ 1.18e-38
最大 normal 正数:约 3.39e38
BF16 的精度特点:
text
尾数 7 bit
在 [1, 2) 区间,最小间隔是 2^-7 = 0.0078125
所以:
BF16 的小数精度比 FP16 差,但动态范围远大于 FP16。
3. FP16 vs BF16 对比
| 格式 | 符号位 | 指数位 | 尾数位 | bias | 动态范围 | 精度 |
|---|---|---|---|---|---|---|
| FP16 | 1 | 5 | 10 | 15 | 小 | 高 |
| BF16 | 1 | 8 | 7 | 127 | 大,接近 FP32 | 低 |
简单理解:
text
FP16:
指数少,尾数多
范围小,精度高
BF16:
指数多,尾数少
范围大,精度低
4. 为什么大模型常用 BF16?
因为神经网络训练和推理里,很多中间值的动态范围很大。
FP16 容易出现:
text
overflow:太大,溢出
underflow:太小,变成 0
BF16 的指数位和 FP32 一样是 8 bit,所以动态范围接近 FP32:
text
FP32:1 sign + 8 exponent + 23 mantissa
BF16:1 sign + 8 exponent + 7 mantissa
可以理解为:
text
BF16 = 截断尾数的 FP32
所以 BF16 虽然精度低一些,但更稳定。
5. 最简洁结论
math
FP16:
x = (-1)^s \times 2^{E - 15} \times \left(1 + \frac{M}{1024}\right)
math
BF16:
x = (-1)^s \times 2^{E - 127} \times \left(1 + \frac{M}{128}\right)
一句话:
FP16 用更多 bit 表示尾数,所以精度更好;BF16 用更多 bit 表示指数,所以动态范围更大,更适合大模型训练和推理。