计算机组成原理【3】：数据的表示和运算-下

概述

浮点数的表示和运算

浮点数的表示；IEEE 754标准；浮点数的加/减运算

浮点数的表示与运算

浮点数的表示

浮点数表示法是指以适当的形式将比例因子表示在数据中，让小数点的位置根据需要而浮动。这样在位数有限的情况下，既扩大了数的表示范围，又保持数的有效精度。

浮点数的表示格式

浮点数由符号、尾数和阶码三部分组成，其表示的数值为：

\ $N=(-1)\^S\\times M\\times R\^{E} \\$

式中，$S$取值0或1，用来决定浮点数的符号；$M$是一个二进制小输，称为尾数，一般用定点原码小数表示；$E$是一个二进制定点整数，称为阶码或指数，用移码表示。$R$是基数（隐含），可以约定为2、4、16等。

阶码的值反应浮点数小数点的实际位置。
阶码的位数反应浮点数的表示范围。
尾数的位数反应浮点数的精度。

浮点数的表示范围与溢出

浮点数的表示范围是关于原点对称的：

正上溢：运算结果大于最大正数是称为正上溢
负上溢：运算结果小于绝对值最大负数时称为负上溢。
上溢：正上溢和负上溢统称为上溢。

数据一旦产生上溢，计算机必须中断运算操作，进行溢出处理。

正下溢：当运算结果在0至最小正数之间时称为正下溢。
负下溢：当运算结果在0至绝对值最小负数之间时称为负下溢。
下溢：正下溢和负下溢统称下溢。

数据下溢时，浮点数值趋于0，计算机将其当作机器零处理。

IEEE754标准

按照IEEE754标准，常用的浮点数格式有32位单精度浮点数 （短浮点数，float型）和64位双精度浮点数（长浮点数，double型）。

类型	符号s	阶码e	尾数f	总位数	偏置值
单精度	1	8	23	32	7FH/127
双精度	1	11	52	64	3FFH/1023

float和double的基数都为2

隐藏位：对于规格化的二进制浮点数，尾数的最高位总是1，未来能使尾数多表示一位有效位，将这个1隐藏，称为隐藏位，因此23位尾数实际上表示了24位有效数字。IEEE754规定隐藏位1的位置在小数点之前。

偏置：在IEEE754标准中，指数用移码表示，但偏置不是通常n位移码所用的$2^{n-1}$而是$2^{n-1}-1$.

规格化单精度浮点数的真值：

\ $(-1)\^s\\times 1.f \\times 2\^{e-127} \\$

规格化双精度浮点数的真值：

\ $(-1)\^s\\times 1.f \\times 2\^{e-1023} \\$

IEEE754规定的特殊意义浮点数

$+0/-0$：阶码全0，尾数全0
$+\infty/-\infty$：阶码全1，尾数全0
NaN：阶码全1，尾数非0
非规格化数：阶码全0，尾数非0

定点、浮点表示的区别

数值的表示范围：若定点数和浮点数的字长相同，则浮点表示法所能表示的数值范围远大于定点表示法。
精度：对于字长相同的定点数和浮点数来说，浮点数虽然扩大的表示范围，但精度降低。
数的运算：浮点数包括阶码和尾数两部分，运算时不仅要做尾数的运算，还要做阶码的运算，而且运算结果要求规格化，所以浮点数运算比定点数运算复杂。
溢出问题：在定点运算中，当运算结果超出数的表示范围时，发生溢出；在浮点运算中，运算结果超出尾数表示范围却不一定溢出，只有规格化后阶码超出所能表示的范围时，才发生溢出。

浮点数的加减法运算

对阶

对阶的目的是使两个操作数的小数点位置对齐，即使得两个数的阶码相等。
对齐原则：小阶码向大阶码看齐，将阶码小的尾数右移1位，阶码加1，直至两个数的阶码相等。

尾数右移时，若舍弃有效位会产生误差，影响精度。为了保证运算的精度，尾数右移时，低位移出保留，并继续参加尾数部分的运算。

尾数加减

对阶后的尾数按定点原码小数的加（减）运算规则进行运算。
在进行尾数加减时，必须将隐藏位还原到尾数部分。
运算后的尾数补一点给是规格化的，因此还需要进一步进行规格化处理。

舍入

为保证运算精度，一般将移出的部位低位保留下来，参加中间过程的运算，最后再将运算结果进行舍入，还原成IEEE754格式。

IEEE754提供了四种可选的舍入模式：

就近舍入：舍入为最近的可表示数。
正向舍入：取右边最近的可表示数。
负向舍入：取左边最近的可表示数。
截断法：截取所需位数，丢弃后面的所有位。该方法等价于取更接近原点的可表示数。

溢出判断

若一个正整数超过了最大允许值（127/1023）则发生指数上溢 ，产生异常；

若一个负指数超过了最小允许值（-149/-1074），则发生指数下溢，通常按机器零处理。

尾数舍入（溢出）：数值很大的尾数舍入时，可能因为末位加1而发生尾数溢出，此时需要通过右规调整尾数和阶码。

右规（上溢）：右规时阶码加1，若加1后阶码全1，则发生指数上溢。（IEEE规定指数全1尾数非零为NAN）

左规（下溢）：左规时阶码减1，阶码全0则发生指数下溢。

对于非规格化数的情况，尾数为0.0...01时，指数的最小允许范围是：-126-23=-129或-1022-52=-1074

C语言中的浮点类型

不同类型数的混合运算时，遵循的原则是"类型提升"，即较低类型转换为较高类型。

整型：char->int->long->(double，当和浮点数运算时)
浮点型：float->double

转换时的精度、范围分析

int型转换为float型：不会发生溢出，但float尾数连隐藏位共24位，当int型的第24~31位非0时，无法精确转换成24位浮点数，需舍入处理，影响精度。
int型/float型转为double型：由于double型的有效位数更多，因此能保留精确值。
double型转为float型：float表示范围更小，因此大数转换时可能发生溢出；float尾数有效尾数更少，高精度数转换时发生舍入。
float型/double型转int型：由于int型没有小数部分，因此数据会向0方向截断（仅保留整数部分），因此发生舍入。int型表示范围更小，大数转换时可能会溢出。

数据的大小端和对齐存储

在存储数据时，数据从低位到高位可以按从左到右排列，也可以按照从右到左排列。
通常用最低有效字节（LSB）和最高有效字节（MSB）来分别表示数据的低位和高位。

机器数 01 23 45 67H，其最高有效字节MSB=01H，最低有效自己LSB=67H

根据数据中各字节在连续字节序列中的排列顺序不同，可以采用两种排列方式：大端方式和小端方式。
大端方式：先存储高位字节，后存储低位字节。字中的字节顺序和原序列的相同。
小端方式：先存储低位字节，后存储高位字节。字中的字节顺序和原序列的相反。

边界对齐方式

数据按边界对齐方式存放要求其存储地址是自身大小的整数倍，半字地址 一定是2的整数倍，字地址一定是4的整数倍。
当所存数据不满足上述要求时，可通过填充空白字节使其符合要求

字地址中的字指代4字节。

结构体对齐

在C语言中的struct类型中，"边界对齐"有两个重要要求：

每个成员按其类型的大小对齐，不同类型的对齐值不同；
struct的长度必须是成员中最大对齐值的整数倍（不够就补空字节）

struct A{
int a;
char b;
short c;
} // sizeof(A) = 8

struct B{
char b;
int a;
short c;
} // sizeof(B) = 12