C 语言数据存储全解析：原反补码、大小端与 IEEE 754 浮点数

1.整数在内存中的存储

整数的2进制表示方法有三种，即原码、反码和补码：

**原码：**直接将数值按照正负数的形式翻译成二进制得到的就是原码。
**反码：**将原码的符号位不变，其他位依次按位取反就可以得到反码。
**补码：**反码+1就得到补码。

对于有符号(signed)的整数 ，三种表示方法均有符号位和数值位两个部分 ，符号位用0表示"正"，用1表示"负" ，最高位的那一位被当作符号位，剩余的都是数值位 。

正整数的原、反、补码相同；
负整数的三种表示方法各不相同

对于整形来说：数据存放在内存中的其实是二进制的补码

补码实现了符号位与数值域的统一处理

简化运算设计，仅需加法器即可完成加减运算

补码与原码转换过程一致（取反加1），无需额外硬件支持

这种设计显著提升了运算效率和硬件利用率。

2.大小端字节序

2.1 概念

引入：我们调试以下代码

cpp 复制代码

#include <stdio.h>
int main()
{
	int a = 0x11223344;

	return 0;
}

我们可以看到在a中的 0x11223344 这个数字在内存中是按照字节为单位，倒着存储的

这是为什么呢？其实超过一个字节的数据在内存中存储的时候，就有存储顺序的问题，按照不同的存储顺序，我们分为大端字节序存储和小端字节序存储，下面是具体的概念：

大端（存储）模式：

是指数据的低位字节内容保存在内存的高地址处，而数据的高位字节内容，保存在内存的低地址处

小端（存储）模式：

是指数据的低位字节内容保存在内存的低地址处，而数据的高位字节内容，保存在内存的高地址处

2.2 为什么有大小端？

计算机系统采用不同字节序（大端模式和小端模式）的原因与内存存储方式密切相关。

由于计算机以字节为单位寻址，每个地址对应8位bit数据，但在C语言中存在16位的short类型和32位的long类型等跨字节数据类型。当处理器位宽超过8位（如16位或32位）时，就需要解决多字节数据在内存中的排列问题。

**举例说明：**假设一个16位的short型变量x存储在地址0x0010处，其值为0x1122。其中0x11是高字节，0x22是低字节。在大端模式下，高字节0x11存放在低地址0x0010，低字节0x22存放在高地址0x0011；小端模式则完全相反。

常见的X86架构采用小端模式，而KEIL C51使用大端模式。多数ARM和DSP处理器默认采用小端模式，部分ARM处理器还支持通过硬件切换字节序。

3.浮点数在内存中的存储

常见的浮点数：3.14159、1E10等，浮点数家族包括： float、double、long double 类型。

浮点数表示的范围： float.h 中定义

根据国际标准IEEE（电气和电子工程协会）754，任意一个二进制浮点数 V 可以表示成下面的形式：

举例来说：

十进制的5.0，写成二进制是 101.0 ，相当于 1.01×2^2，按照上面 V 的格式，可以得出S=0，M=1.01，E=2。
十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。那么，S=1，M=1.01，E=2

IEEE 754规定：

对于32位的浮点数(float)，最高的1位存储符号位S，接着的8位存储指数E，剩下的23位存储有效数字M

对于64位的浮点数(double)，最高的1位存储符号位S，接着的11位存储指数E，剩下的52位存储有效数字M
float类型浮点数内存分配 double类型浮点数内存分配

3.1浮点数存的过程

IIEEE 754标准对有效数字M和指数E有特殊规定。根据规范，1≤M<2，这意味着M可以表示为1.xxxxxx的形式（xxxxxx代表小数部分）。为提高存储效率，标准规定在计算机内部存储M时，可以省略默认的整数部分1，仅保留小数部分xxxxxx。例如，存储1.01时只记录01，读取时再恢复整数部分1。这种设计能节省1位存储空间：以32位浮点数为例，虽然M仅分配23位存储空间，但通过省略前导1，实际可表示24位有效数字。

关于指数E的情况较为复杂：

E是一个无符号整数（unsigned int）。若E为8位，其取值范围为0~255；若为11位，则范围是0~2047。
由于科学计数法中的E可能出现负数，IEEE 754规定：存储时E的真实值需加上一个中间数（8位E加127，11位E加1023）。例如，2^10的E为10，在32位浮点数中应存储为10+127=137，即二进制10001001。

3.2浮点数取的过程

指数E从内存中取出还可以再分成三种情况：

E不全为0或不全为1（常规情况）：

在这种情况下，浮点数按照以下规则表示：首先将指数E的计算值减去127（或1023）得到真实值，然后在有效数字M前补上第一位隐含的1。

以0.5为例，其二进制表示为0.1。根据规范，正数部分必须为1，因此需要将小数点右移1位，得到1.0×2^(-1)。此时阶码为-1+127（偏移量）=126，对应的二进制表示为01111110。尾数部分1.0去掉整数位后为0，补0至23位得到00000000000000000000000。最终，0.5的二进制表示为：

cpp 复制代码

0 01111110 00000000000000000000000

E全为0：

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

cpp 复制代码

0 00000000 00100000000000000000000

E全为1：

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位S）

cpp 复制代码

0 11111111 00010000000000000000000

4.练习

练习1：

请简述大端字节序和小端字节序的概念，设计一个小程序来判断当前机器的字节序。（10分）- 百度笔试题

解法思路（核心：看"最低地址存的是什么"）

整数1的十六进制是0x00000001，它的最低位字节是0x01

如果我们能拿到这个整数在内存中存放的第一个字节（低地址处的字节），就能判断：

如果第一个字节是1 → 小端（因为小端把低位字节放低地址）

如果第一个字节是0 → 大端（因为大端把高位字节放低地址）

cpp 复制代码

#include <stdio.h>
int check_sys()
{
	int a = 1;
	return *(char*)&a;
}

int main()
{
	if (check_sys())
	{
		printf("小端\n");
	}
	else
	{
		printf("大端\n");
	}
	return 0;
}

画图解析

int a = 1;→ 内存中存 0x00000001（数值层面），但存储顺序取决于字节序。

&a→ 取 a的地址（低地址）。

(char*)&a→ 把地址类型转为 char*，这样解引用时只读取 1 个字节。

*(char*)&a→ 读取低地址处的那个字节：

小端系统中，低地址存 0x01→ 返回 1→ 输出"小端"。

大端系统中，低地址存 0x00→ 返回 0→ 输出"大端"。
总结：

判断字节序的本质是：看整数 1 的"最低地址字节"是 1 还是 0 ------ 是 1 则为小端，是 0 则为大端。

代码实现的核心是用 char* 窥探低地址处的字节

练习2：

cpp 复制代码

#include <stdio.h>
int main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);
	*pFloat = 9.0;
	printf("n的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);
	return 0;
}

分析：

cpp 复制代码

int n = 9;                 1. 定义 int 变量 n，初始值为 9（十六进制：0x00000009）
float* pFloat = (float*)&n;  2. 将 n 的地址强转为 float*，让 pFloat 指向 n 的内存
printf("n的值为：%d\n", n);        3. 打印 n 的 int 值
printf("*pFloat的值为：%f\n", *pFloat);  4. 打印 pFloat 解引用后的 float 值
*pFloat = 9.0;             5. 将 pFloat 指向的内存（即 n 的内存）赋值为 float 类型的 9.0
printf("n的值为：%d\n", n);        6. 再次打印 n 的 int 值
printf("*pFloat的值为：%f\n", *pFloat);  7. 再次打印 pFloat 解引用后的 float 值

cpp 复制代码

printf("n的值为：%d\n", n);
printf("*pFloat的值为：%f\n", *pFloat);
printf("n的值为：%d\n", n);
printf("*pFloat的值为：%f\n", *pFloat);

第一个printf

以整数存放进去再以整数形式打印，打印9

第二个printf

9以整型的形式存储在内存中，得到如下二进制序列：
cpp 复制代码
0000 0000 0000 0000 0000 0000 0000 1001
首先，将 9 的二进制序列按照浮点数的形式拆分，得到第一位符号位S=0，后面8位的指数E=00000000 ，最后23位的有效数字M=000 0000 0000 0000 0000 1001。由于指数E全为0，所以符合E为全0的情况。

因此，浮点数 V 就写成： V=(-1)^0 × 0.00000000000000000001001×2^(-126)=1.001×2^(-146) 显然，V是一个很小的接近于0的正数，所以用十进制小数表示就是0.000000，打印出来的就是0.000000

第三个printf

首先，浮点数9.0等于二进制的1001.0，即换算成科学计数法是：1.001×2^3，所以：9.0 = (−1) ^ 0 × (1.001) × 2^3 ，那么，第一位的符号位S=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于3+127=130，即10000010，所以，写成二进制形式，应该是
cpp 复制代码
0 10000010 001 0000 0000 0000 0000 0000
这个32位的二进制数，被当做整数来解析的时候，就是整数在内存中的补码，打印出来就是1091567616

第四个printf

存进去浮点数，以浮点数的形式打印就是9.000000

完

本专栏C语言持续更新中，欢迎关注！