C 语言数据存储全解析:原反补码、大小端与 IEEE 754 浮点数

1.整数在内存中的存储

整数的2进制表示方法有三种,即原码、反码和补码:

  • **原码:**直接将数值按照正负数的形式翻译成二进制得到的就是原码。
  • **反码:**将原码的符号位不变,其他位依次按位取反就可以得到反码。
  • **补码:**反码+1就得到补码。

对于有符号(signed)的整数 ,三种表示方法均有符号位和数值位两个部分符号位用0表示"正",用1表示"负"最高位的那一位被当作符号位,剩余的都是数值位

  1. 正整数的原、反、补码相同;

  2. 负整数的三种表示方法各不相同

对于整形来说:数据存放在内存中的其实是二进制的补码

  1. 补码实现了符号位与数值域的统一处理
  2. 简化运算设计,仅需加法器即可完成加减运算
  3. 补码与原码转换过程一致(取反加1),无需额外硬件支持

这种设计显著提升了运算效率和硬件利用率。


2.大小端字节序

2.1 概念

引入:我们调试以下代码

cpp 复制代码
#include <stdio.h>
int main()
{
	int a = 0x11223344;

	return 0;
}

我们可以看到在a中的 0x11223344 这个数字在内存中是按照字节为单位,倒着存储的

这是为什么呢?其实超过一个字节的数据在内存中存储的时候,就有存储顺序的问题,按照不同的存储顺序,我们分为大端字节序存储和小端字节序存储,下面是具体的概念:

大端(存储)模式:

  • 是指数据的低位字节内容保存在内存的高地址处,而数据的高位字节内容,保存在内存的低地址处

小端(存储)模式:

  • 是指数据的低位字节内容保存在内存的低地址处,而数据的高位字节内容,保存在内存的高地址处

2.2 为什么有大小端?

计算机系统采用不同字节序(大端模式和小端模式)的原因与内存存储方式密切相关。

由于计算机以字节为单位寻址,每个地址对应8位bit数据,但在C语言中存在16位的short类型和32位的long类型等跨字节数据类型。当处理器位宽超过8位(如16位或32位)时,就需要解决多字节数据在内存中的排列问题。

**举例说明:**假设一个16位的short型变量x存储在地址0x0010处,其值为0x1122。其中0x11是高字节,0x22是低字节。在大端模式下,高字节0x11存放在低地址0x0010,低字节0x22存放在高地址0x0011;小端模式则完全相反。

常见的X86架构采用小端模式,而KEIL C51使用大端模式。多数ARM和DSP处理器默认采用小端模式,部分ARM处理器还支持通过硬件切换字节序。


3.浮点数在内存中的存储

常见的浮点数:3.14159、1E10等,浮点数家族包括: float、double、long double 类型。

浮点数表示的范围: float.h 中定义

根据国际标准IEEE(电气和电子工程协会)754,任意一个二进制浮点数 V 可以表示成下面的形式:

举例来说:

  • 十进制的5.0,写成二进制是 101.0 ,相当于 1.01×2^2,按照上面 V 的格式,可以得出S=0,M=1.01,E=2。
  • 十进制的-5.0,写成二进制是 -101.0 ,相当于 -1.01×2^2 。那么,S=1,M=1.01,E=2

IEEE 754规定:

  1. 对于32位的浮点数(float),最高的1位存储符号位S,接着的8位存储指数E,剩下的23位存储有效数字M
  2. 对于64位的浮点数(double),最高的1位存储符号位S,接着的11位存储指数E,剩下的52位存储有效数字M
    float类型浮点数内存分配 double类型浮点数内存分配

3.1浮点数存的过程

IIEEE 754标准对有效数字M和指数E有特殊规定。根据规范,1≤M<2,这意味着M可以表示为1.xxxxxx的形式(xxxxxx代表小数部分)。为提高存储效率,标准规定在计算机内部存储M时,可以省略默认的整数部分1,仅保留小数部分xxxxxx。例如,存储1.01时只记录01,读取时再恢复整数部分1。这种设计能节省1位存储空间:以32位浮点数为例,虽然M仅分配23位存储空间,但通过省略前导1,实际可表示24位有效数字。

关于指数E的情况较为复杂:

  1. E是一个无符号整数(unsigned int)。若E为8位,其取值范围为0~255;若为11位,则范围是0~2047。
  2. 由于科学计数法中的E可能出现负数,IEEE 754规定:存储时E的真实值需加上一个中间数(8位E加127,11位E加1023)。例如,2^10的E为10,在32位浮点数中应存储为10+127=137,即二进制10001001。

3.2浮点数取的过程

指数E从内存中取出还可以再分成三种情况:

E不全为0或不全为1(常规情况):

在这种情况下,浮点数按照以下规则表示:首先将指数E的计算值减去127(或1023)得到真实值,然后在有效数字M前补上第一位隐含的1。

以0.5为例,其二进制表示为0.1。根据规范,正数部分必须为1,因此需要将小数点右移1位,得到1.0×2^(-1)。此时阶码为-1+127(偏移量)=126,对应的二进制表示为01111110。尾数部分1.0去掉整数位后为0,补0至23位得到00000000000000000000000。最终,0.5的二进制表示为:

cpp 复制代码
0 01111110 00000000000000000000000

E全为0:

这时,浮点数的指数E等于1-127(或者1-1023)即为真实值,有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于0的很小的数字。

cpp 复制代码
0 00000000 00100000000000000000000

E全为1:

这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位S)

cpp 复制代码
0 11111111 00010000000000000000000

4.练习

练习1:

请简述大端字节序和小端字节序的概念,设计一个小程序来判断当前机器的字节序。(10分)- 百度笔试题

解法思路(核心:看"最低地址存的是什么")

整数1的十六进制是0x00000001,它的最低位字节是0x01

如果我们能拿到这个整数在内存中存放的第一个字节(低地址处的字节),就能判断:

  • 如果第一个字节是1 → 小端(因为小端把低位字节放低地址)

  • 如果第一个字节是0 → 大端(因为大端把高位字节放低地址)

cpp 复制代码
#include <stdio.h>
int check_sys()
{
	int a = 1;
	return *(char*)&a;
}

int main()
{
	if (check_sys())
	{
		printf("小端\n");
	}
	else
	{
		printf("大端\n");
	}
	return 0;
}

画图解析

  1. int a = 1;→ 内存中存 0x00000001(数值层面),但存储顺序取决于字节序。

  2. &a→ 取 a的地址(低地址)。

  3. (char*)&a→ 把地址类型转为 char*,这样解引用时只读取 1 个字节。

  4. *(char*)&a→ 读取低地址处的那个字节:

  • 小端系统中,低地址存 0x01→ 返回 1→ 输出"小端"。
  • 大端系统中,低地址存 0x00→ 返回 0→ 输出"大端"。
    总结:
  1. 判断字节序的本质是:看整数 1 的"最低地址字节"是 1 还是 0 ------ 是 1 则为小端,是 0 则为大端。
  2. 代码实现的核心是用 char* 窥探低地址处的字节

练习2:

cpp 复制代码
#include <stdio.h>
int main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为:%d\n", n);
	printf("*pFloat的值为:%f\n", *pFloat);
	*pFloat = 9.0;
	printf("n的值为:%d\n", n);
	printf("*pFloat的值为:%f\n", *pFloat);
	return 0;
}

分析:

cpp 复制代码
int n = 9;                 1. 定义 int 变量 n,初始值为 9(十六进制:0x00000009)
float* pFloat = (float*)&n;  2. 将 n 的地址强转为 float*,让 pFloat 指向 n 的内存
printf("n的值为:%d\n", n);        3. 打印 n 的 int 值
printf("*pFloat的值为:%f\n", *pFloat);  4. 打印 pFloat 解引用后的 float 值
*pFloat = 9.0;             5. 将 pFloat 指向的内存(即 n 的内存)赋值为 float 类型的 9.0
printf("n的值为:%d\n", n);        6. 再次打印 n 的 int 值
printf("*pFloat的值为:%f\n", *pFloat);  7. 再次打印 pFloat 解引用后的 float 值
cpp 复制代码
printf("n的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);
printf("n的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);

第一个printf

以整数存放进去再以整数形式打印,打印9

第二个printf

9以整型的形式存储在内存中,得到如下二进制序列:

cpp 复制代码
0000 0000 0000 0000 0000 0000 0000 1001
  • 首先,将 9 的二进制序列按照浮点数的形式拆分,得到第一位符号位S=0,后面8位的指数E=00000000 ,最后23位的有效数字M=000 0000 0000 0000 0000 1001。由于指数E全为0,所以符合E为全0的情况。
  • 因此,浮点数 V 就写成: V=(-1)^0 × 0.00000000000000000001001×2^(-126)=1.001×2^(-146) 显然,V是一个很小的接近于0的正数,所以用十进制小数表示就是0.000000,打印出来的就是0.000000

第三个printf

  • 首先,浮点数9.0等于二进制的1001.0,即换算成科学计数法是:1.001×2^3, 所以:9.0 = (−1) ^ 0 × (1.001) × 2^3 ,那么,第一位的符号位S=0,有效数字M等于001后面再加20个0,凑满23位,指数E等于3+127=130, 即10000010,所以,写成二进制形式,应该是
cpp 复制代码
0 10000010 001 0000 0000 0000 0000 0000
  • 这个32位的二进制数,被当做整数来解析的时候,就是整数在内存中的补码,打印出来就是1091567616

第四个printf

存进去浮点数,以浮点数的形式打印就是9.000000

本专栏C语言持续更新中,欢迎关注!

相关推荐
2401_873204652 小时前
C++与Docker集成开发
开发语言·c++·算法
j_xxx404_2 小时前
力扣--分治(归并排序)算法题II:计算右侧小于当前元素的个数,翻转对(无痛通关困难题)
开发语言·数据结构·c++·算法·leetcode
阿梅要做最快乐的仔2 小时前
链表环问题:快慢指针的经典应用
数据结构·链表
setmoon2142 小时前
多协议网络库设计
开发语言·c++·算法
Sylvia-girl2 小时前
删除有序数组中的重复项
数据结构·算法
2501_908329852 小时前
嵌入式LinuxC++开发
开发语言·c++·算法
Storynone2 小时前
【Day30】卡码网:46. 携带研究材料,LeetCode:416. 分割等和子集
python·算法·leetcode
少许极端2 小时前
算法奇妙屋(三十四)-贪心算法学习之路 1
学习·算法·贪心算法
兑生2 小时前
【灵神题单·贪心】3010. 将数组分成最小总代价的子数组 I | Java
java·开发语言·算法