FP16 和 BF16 的数学表达

这里的 BFP16 通常指 BF16 / bfloat16。

FP16 和 BF16 都是 16 bit 浮点数，但位宽分配不同：

text 复制代码

FP16 = 1 bit 符号位 + 5 bit 指数位 + 10 bit 尾数位
BF16 = 1 bit 符号位 + 8 bit 指数位 + 7 bit 尾数位

核心公式都是浮点数标准形式：

math 复制代码

x = (-1)^s \times 2^{E-bias} \times \left(1 + \frac{M}{2^m}\right)

其中：

text 复制代码

s     = 符号位
E     = 指数编码值
bias  = 指数偏置
M     = 尾数字段对应的整数
m     = 尾数 bit 数

1. FP16 的数学表达

FP16，也叫 IEEE half precision。

text 复制代码

总位数：16 bit
符号位：1 bit
指数位：5 bit
尾数位：10 bit
bias = 15

正常数的表达式：

math 复制代码

x = (-1)^s \times 2^{E - 15} \times \left(1 + \frac{M}{2^{10}}\right)

其中：

text 复制代码

E ∈ [1, 30]
M ∈ [0, 1023]

所以 FP16 的正常数范围大约是：

text 复制代码

最小 normal 正数：2^-14 ≈ 6.10e-5
最大 normal 正数：65504

FP16 的精度特点：

text 复制代码

尾数 10 bit
在 [1, 2) 区间，最小间隔是 2^-10 ≈ 0.0009765625

也就是说：

FP16 的小数精度比 BF16 更高。

2. BF16 的数学表达

BF16，也叫 bfloat16。

text 复制代码

总位数：16 bit
符号位：1 bit
指数位：8 bit
尾数位：7 bit
bias = 127

正常数的表达式：

math 复制代码

x = (-1)^s \times 2^{E - 127} \times \left(1 + \frac{M}{2^7}\right)

其中：

text 复制代码

E ∈ [1, 254]
M ∈ [0, 127]

BF16 的正常数范围大约是：

text 复制代码

最小 normal 正数：2^-126 ≈ 1.18e-38
最大 normal 正数：约 3.39e38

BF16 的精度特点：

text 复制代码

尾数 7 bit
在 [1, 2) 区间，最小间隔是 2^-7 = 0.0078125

所以：

BF16 的小数精度比 FP16 差，但动态范围远大于 FP16。

3. FP16 vs BF16 对比

格式	符号位	指数位	尾数位	bias	动态范围	精度
FP16	1	5	10	15	小	高
BF16	1	8	7	127	大，接近 FP32	低

简单理解：

text 复制代码

FP16：
指数少，尾数多
范围小，精度高

BF16：
指数多，尾数少
范围大，精度低

4. 为什么大模型常用 BF16？

因为神经网络训练和推理里，很多中间值的动态范围很大。

FP16 容易出现：

text 复制代码

overflow：太大，溢出
underflow：太小，变成 0

BF16 的指数位和 FP32 一样是 8 bit，所以动态范围接近 FP32：

text 复制代码

FP32：1 sign + 8 exponent + 23 mantissa
BF16：1 sign + 8 exponent + 7 mantissa

可以理解为：

text 复制代码

BF16 = 截断尾数的 FP32

所以 BF16 虽然精度低一些，但更稳定。

5. 最简洁结论

math 复制代码

FP16:
x = (-1)^s \times 2^{E - 15} \times \left(1 + \frac{M}{1024}\right)

math 复制代码

BF16:
x = (-1)^s \times 2^{E - 127} \times \left(1 + \frac{M}{128}\right)

一句话：

FP16 用更多 bit 表示尾数，所以精度更好；BF16 用更多 bit 表示指数，所以动态范围更大，更适合大模型训练和推理。