先来看个最简单的例子。假设我们有这么个结构体:
如果你以为它的sizeof是1+4+1=6,那就太天真了。在x64平台上,实际大小很可能是12字节。为什么?因为编译器在背后偷偷插入了padding(填充字节)。
具体来说,在大多数系统上,基本数据类型都有各自的对齐要求。比如int通常需要4字节对齐,double需要8字节对齐。这意味着这些变量的内存地址必须是其对齐值的整数倍。编译器为了满足这个要求,会在成员之间插入空白字节。
那么上面那个结构体在内存中实际可能是这样布局的:
看到了吗?每个int都必须从4的倍数地址开始,所以a后面要空3个字节。最后为了确保整个结构体数组也能正确对齐,末尾还要再补3个字节。
理解对齐规则其实不难,记住这几个关键点就行。首先是每个基本类型的对齐值,通常等于其自身大小。比如int是4字节,double是8字节。然后是结构体的对齐值,等于其成员中最大的对齐值。最后,整个结构体的大小必须是最宽成员对齐值的整数倍。
但光知道理论还不够,实际编程中我们经常需要主动控制对齐。比如在做网络编程时,要精确控制数据包结构体的大小;在与硬件交互时,寄存器映射必须严格对齐;在优化性能时,合理对齐可以避免cache miss。
控制对齐的方法主要有两种。最常用的是pragma pack:
这样就能强制按1字节对齐,消除所有padding,确保结构体在网络上传输时布局是确定的。
C++11还提供了alignas关键字:
这个例子中,我们确保整个结构体按16字节对齐,正好填满一个缓存行。
不过要注意,过度使用pack可能会带来性能问题。因为未对齐的内存访问在某些架构上会导致异常,在x86/x64上虽然能运行,但速度会慢很多。我曾经优化过一个热点函数,仅仅是通过调整结构体成员顺序减少cache miss,性能就提升了15%。
说到调整成员顺序,这是个很实用的技巧。把大小相近的成员放在一起,按对齐值从大到小排列,往往能最小化padding。比如:
看,只是重新排个序,就省了8个字节。在需要创建大量实例的场景下,这种优化效果相当可观。
对齐问题在跨平台开发时尤其要注意。不同架构的对齐要求可能完全不同。比如ARM平台上未对齐访问会直接导致hard fault,而在x86上只是性能损失。所以写跨平台代码时,要么保证严格对齐,要么明确处理未对齐访问。
说到这,不得不提一下C++17引入的std::hardware_destructive_interference_size,它能告诉你当前平台上避免false sharing需要的对齐大小,对于写高性能多线程程序很有帮助。
最后分享一个实际踩过的坑。我们项目有个结构体要在x86和ARM间传输,在x86上运行正常,到ARM上就各种崩溃。查了半天发现是某个成员没对齐。解决方案很简单,就是加上pack(1),但找到问题花了整整两天。
内存对齐看似简单,但魔鬼在细节中。理解它不仅能避免踩坑,还能写出更高效、更健壮的代码。下次定义结构体时,不妨多花几分钟想想对齐问题,说不定就能避免未来几小时的调试时间。