FP16 和 BF16 的数学表达

FP16 和 BF16 的数学表达

这里的 BFP16 通常指 BF16 / bfloat16

FP16 和 BF16 都是 16 bit 浮点数,但位宽分配不同:

text 复制代码
FP16 = 1 bit 符号位 + 5 bit 指数位 + 10 bit 尾数位
BF16 = 1 bit 符号位 + 8 bit 指数位 + 7 bit 尾数位

核心公式都是浮点数标准形式:

math 复制代码
x = (-1)^s \times 2^{E-bias} \times \left(1 + \frac{M}{2^m}\right)

其中:

text 复制代码
s     = 符号位
E     = 指数编码值
bias  = 指数偏置
M     = 尾数字段对应的整数
m     = 尾数 bit 数

1. FP16 的数学表达

FP16,也叫 IEEE half precision。

text 复制代码
总位数:16 bit
符号位:1 bit
指数位:5 bit
尾数位:10 bit
bias = 15

正常数的表达式:

math 复制代码
x = (-1)^s \times 2^{E - 15} \times \left(1 + \frac{M}{2^{10}}\right)

其中:

text 复制代码
E ∈ [1, 30]
M ∈ [0, 1023]

所以 FP16 的正常数范围大约是:

text 复制代码
最小 normal 正数:2^-14 ≈ 6.10e-5
最大 normal 正数:65504

FP16 的精度特点:

text 复制代码
尾数 10 bit
在 [1, 2) 区间,最小间隔是 2^-10 ≈ 0.0009765625

也就是说:

FP16 的小数精度比 BF16 更高。


2. BF16 的数学表达

BF16,也叫 bfloat16。

text 复制代码
总位数:16 bit
符号位:1 bit
指数位:8 bit
尾数位:7 bit
bias = 127

正常数的表达式:

math 复制代码
x = (-1)^s \times 2^{E - 127} \times \left(1 + \frac{M}{2^7}\right)

其中:

text 复制代码
E ∈ [1, 254]
M ∈ [0, 127]

BF16 的正常数范围大约是:

text 复制代码
最小 normal 正数:2^-126 ≈ 1.18e-38
最大 normal 正数:约 3.39e38

BF16 的精度特点:

text 复制代码
尾数 7 bit
在 [1, 2) 区间,最小间隔是 2^-7 = 0.0078125

所以:

BF16 的小数精度比 FP16 差,但动态范围远大于 FP16。


3. FP16 vs BF16 对比

格式 符号位 指数位 尾数位 bias 动态范围 精度
FP16 1 5 10 15
BF16 1 8 7 127 大,接近 FP32

简单理解:

text 复制代码
FP16:
指数少,尾数多
范围小,精度高

BF16:
指数多,尾数少
范围大,精度低

4. 为什么大模型常用 BF16?

因为神经网络训练和推理里,很多中间值的动态范围很大。

FP16 容易出现:

text 复制代码
overflow:太大,溢出
underflow:太小,变成 0

BF16 的指数位和 FP32 一样是 8 bit,所以动态范围接近 FP32:

text 复制代码
FP32:1 sign + 8 exponent + 23 mantissa
BF16:1 sign + 8 exponent + 7 mantissa

可以理解为:

text 复制代码
BF16 = 截断尾数的 FP32

所以 BF16 虽然精度低一些,但更稳定。


5. 最简洁结论

math 复制代码
FP16:
x = (-1)^s \times 2^{E - 15} \times \left(1 + \frac{M}{1024}\right)
math 复制代码
BF16:
x = (-1)^s \times 2^{E - 127} \times \left(1 + \frac{M}{128}\right)

一句话:

FP16 用更多 bit 表示尾数,所以精度更好;BF16 用更多 bit 表示指数,所以动态范围更大,更适合大模型训练和推理。

相关推荐
玖釉-1 小时前
Vulkan 示例解析:pipelines.cpp 如何在一个 Render Pass 中切换多条 Graphics Pipeline
c++·windows·算法·图形渲染
ji198594431 小时前
局部线性嵌入(LLE)算法 MATLAB 实现
算法·机器学习·matlab
Deepoch1 小时前
Deepoc VLA开发板:无人机群体协同与无网络自主作业核心
网络·人工智能·算法·无人机·deepoc·具身模型开发板
随意起个昵称2 小时前
线性dp-计数类题目11(不等数列)
c++·算法·动态规划
Black蜡笔小新2 小时前
自动化AI算法训练服务器DLTM零代码私有化部署筑牢企业AI落地根基
人工智能·算法·自动化
wWYy.2 小时前
算法:最大子数组和
算法
吃着火锅x唱着歌2 小时前
LeetCode 3829.设计共享出行系统
算法·leetcode·职场和发展
炸薯条!2 小时前
二叉树的链式表示
数据结构·算法
CHHH_HHH2 小时前
【C++】二叉搜索树全面升级,深度剖析AVL树
开发语言·数据结构·c++·算法·stl