计算机组成原理 | 浮点数加减法

🔢 浮点数加减法：计算机如何"算"出 1.5 + 0.5 = 2.0？

在计算机的世界里，所有数据最终都会变成0和1。当你在代码里写下 1.5 + 0.5 时，CPU内部究竟经历了怎样的"精密舞蹈"？今天，我们就来拆解浮点数加减法的底层逻辑，看懂计算机是如何精准计算小数的。

🧩 一、前置知识：浮点数的"身份证"

在讲运算之前，我们先要认识浮点数的存储格式。目前计算机通用的是 IEEE 754标准。以单精度（float）为例，它由三部分组成：

组成部分	位数	作用
符号位 (S)	1 bit	0表示正，1表示负
阶码 (E)	8 bit	决定数的大小范围（指数部分）
尾数 (M)	23 bit	决定数的精度（小数部分）

💡 核心公式 ：
V=(−1)S×(1.M)×2E−127V = (-1)^S \times (1.M) \times 2^{E-127}V=(−1)S×(1.M)×2E−127

注：这里的 1.M 意味着尾数部分隐含了一个整数位的1（规格化数），这是为了多存一位精度。

🛠️ 二、浮点数加减法的"五步法"

浮点数加减法比整数运算复杂得多，因为两个数的"小数点位置"（即阶码）可能不同。就像你要把"米"和"厘米"相加，必须先统一单位。

计算机内部的运算流程严格遵循以下五个步骤：

1️⃣ 对阶 (Alignment)

原则：小阶向大阶看齐。

为什么要对阶？ 只有指数相同，尾数才能直接相加减。
怎么做？ 比较两个数的阶码大小。将阶码小的那个数的尾数右移，每右移一位，阶码加1，直到两个数的阶码相等。
注意：右移会导致低位丢失，所以通常会保留几位保护位（Guard bits）以减少误差。

2️⃣ 尾数求和 (Addition/Subtraction)

操作：尾数进行定点加减运算。

对阶完成后，两个数的指数已经一致。此时，直接对尾数部分进行二进制加法或减法。
这一步其实就是普通的二进制补码或原码加减法。

3️⃣ 规格化 (Normalization)

目的：让结果符合 IEEE 754 的标准格式（即 1.xxxx×2E1.xxxx \times 2^E1.xxxx×2E）。

尾数运算后，结果可能不再符合规格化形式，需要调整：

左规： 如果结果出现 0.001... 这种形式（高位有多个0），需要将尾数左移，同时阶码减小，直到最高位为1。
右规： 如果结果出现 10.01... 这种形式（双符号位溢出，即整数位变成了2），需要将尾数右移一位，同时阶码加1。

4️⃣ 舍入处理 (Rounding)

原则：0舍1入（类似十进制的四舍五入）。

在对阶（右移）或右规（右移）的过程中，低位的二进制位会被移出。
为了保持精度，不能直接丢弃。通常采用"0舍1入"法：如果被移出的最高位是1，则在尾数末位加1；如果是0，则直接舍去。

5️⃣ 溢出判断 (Overflow Check)

检查：阶码是否超出了表示范围。

如果阶码太大（上溢），通常置为无穷大（Infinity）。
如果阶码太小（下溢），通常置为机器零（Zero）。

📝 三、实战演练：详解 Z=X+YZ = X + YZ=X+Y

让我们通过一个具体的例子，完全复刻图片中的计算过程。

题目： 已知 float X=1.5X = 1.5X=1.5, Y=0.5Y = 0.5Y=0.5，求 Z=X+YZ = X + YZ=X+Y。

第一步：将十进制转换为 IEEE 754 机器码

X = 1.5
- 二进制：1.1×201.1 \times 2^01.1×20
- 符号位：0 (正)
- 阶码：0+127=127→011111110 + 127 = 127 \rightarrow 011111110+127=127→01111111
- 尾数：1.000...1.000...1.000... (隐含1，存储部分全0)
- X的机器码： 0 01111111 00000000000000000000000
Y = 0.5
- 二进制：1.0×2−11.0 \times 2^{-1}1.0×2−1
- 符号位：0 (正)
- 阶码：−1+127=126→01111110-1 + 127 = 126 \rightarrow 01111110−1+127=126→01111110
- 尾数：1.000...1.000...1.000... (隐含1，存储部分全0)
- Y的机器码： 0 01111110 00000000000000000000000

第二步：执行五步运算

① 对阶

比较阶码：Ex(127)>Ey(126)E_x (127) > E_y (126)Ex(127)>Ey(126)。

差值为1。根据"小阶向大阶看齐"，Y 的阶码小，所以 Y 的尾数右移 1 位，阶码加 1 变为 127。

X 尾数保持不变：+1.1000...000+1.1000...000+1.1000...000
Y 尾数右移1位：+0.1000...000+0.1000...000+0.1000...000 (注意：原来的隐含1移到了小数点后第一位)

② 尾数求和

现在阶码都是 127，直接加尾数：

text 复制代码

  1.10000000000000000000000  (X)
+ 0.10000000000000000000000  (Y移位后)
---------------------------
 10.00000000000000000000000

结果是 10.0...10.0...10.0...，这显然不是规格化数（规格化要求是 1.x...1.x...1.x...）。

③ 规格化（右规）

因为尾数运算结果出现了双符号位（或者理解为整数位是2，即二进制 10），发生了溢出，需要右规。

操作： 尾数右移 1 位，阶码 + 1。
新尾数： +1.00000000000000000000000+1.00000000000000000000000+1.00000000000000000000000
新阶码： 127+1=128→10000000127 + 1 = 128 \rightarrow 10000000127+1=128→10000000

④ 舍入处理

在这个简单的例子中，右移并没有导致有效精度的丢失（移出的都是0），所以不需要特殊的舍入操作。但在复杂计算中，这里会执行"0舍1入"。

⑤ 溢出判断

新的阶码是 128，在 0~255 的合法范围内，无溢出。

第三步：得出最终结果

组合最终的符号、阶码、尾数：

符号位： 0
阶码： 10000000 (128)
尾数： 00000000000000000000000

最终机器码： 0 10000000 00000000000000000000000

还原真值：
(−1)0×1.0×2128−127=1×21=2.0(-1)^0 \times 1.0 \times 2^{128-127} = 1 \times 2^1 = 2.0(−1)0×1.0×2128−127=1×21=2.0

✅ 验证成功：1.5 + 0.5 = 2.0

💡 四、为什么这个知识点很重要？

很多程序员在写代码时会遇到这样的困惑：

python 复制代码

print(0.1 + 0.2) # 输出往往是 0.30000000000000004

这就是因为在上述的**第①步（对阶）和第④步（舍入）**中，二进制无法精确表示某些十进制小数（如0.1），在右移和截断过程中产生了微小的误差。

理解了浮点数的加减法原理，你就能明白：

为什么金融系统不能用 float/double，而要用 Decimal 类型？
为什么在做图形学计算时，要注意精度丢失问题？
为什么比较两个浮点数是否相等时，不能用 ==，而要用 abs(a-b) < epsilon？

如果觉得有用，欢迎点赞、在看、转发三连支持！🚀

(本文示例参考自王道考研计算机组成原理课程资料)