C++在系统中的内存对齐

先来看个最简单的例子。假设我们有这么个结构体：

如果你以为它的sizeof是1+4+1=6，那就太天真了。在x64平台上，实际大小很可能是12字节。为什么？因为编译器在背后偷偷插入了padding（填充字节）。

具体来说，在大多数系统上，基本数据类型都有各自的对齐要求。比如int通常需要4字节对齐，double需要8字节对齐。这意味着这些变量的内存地址必须是其对齐值的整数倍。编译器为了满足这个要求，会在成员之间插入空白字节。

那么上面那个结构体在内存中实际可能是这样布局的：

看到了吗？每个int都必须从4的倍数地址开始，所以a后面要空3个字节。最后为了确保整个结构体数组也能正确对齐，末尾还要再补3个字节。

理解对齐规则其实不难，记住这几个关键点就行。首先是每个基本类型的对齐值，通常等于其自身大小。比如int是4字节，double是8字节。然后是结构体的对齐值，等于其成员中最大的对齐值。最后，整个结构体的大小必须是最宽成员对齐值的整数倍。

但光知道理论还不够，实际编程中我们经常需要主动控制对齐。比如在做网络编程时，要精确控制数据包结构体的大小；在与硬件交互时，寄存器映射必须严格对齐；在优化性能时，合理对齐可以避免cache miss。

控制对齐的方法主要有两种。最常用的是pragma pack：

这样就能强制按1字节对齐，消除所有padding，确保结构体在网络上传输时布局是确定的。

C++11还提供了alignas关键字：

这个例子中，我们确保整个结构体按16字节对齐，正好填满一个缓存行。

不过要注意，过度使用pack可能会带来性能问题。因为未对齐的内存访问在某些架构上会导致异常，在x86/x64上虽然能运行，但速度会慢很多。我曾经优化过一个热点函数，仅仅是通过调整结构体成员顺序减少cache miss，性能就提升了15%。

说到调整成员顺序，这是个很实用的技巧。把大小相近的成员放在一起，按对齐值从大到小排列，往往能最小化padding。比如：

看，只是重新排个序，就省了8个字节。在需要创建大量实例的场景下，这种优化效果相当可观。

对齐问题在跨平台开发时尤其要注意。不同架构的对齐要求可能完全不同。比如ARM平台上未对齐访问会直接导致hard fault，而在x86上只是性能损失。所以写跨平台代码时，要么保证严格对齐，要么明确处理未对齐访问。

说到这，不得不提一下C++17引入的std::hardware_destructive_interference_size，它能告诉你当前平台上避免false sharing需要的对齐大小，对于写高性能多线程程序很有帮助。

最后分享一个实际踩过的坑。我们项目有个结构体要在x86和ARM间传输，在x86上运行正常，到ARM上就各种崩溃。查了半天发现是某个成员没对齐。解决方案很简单，就是加上pack(1)，但找到问题花了整整两天。

内存对齐看似简单，但魔鬼在细节中。理解它不仅能避免踩坑，还能写出更高效、更健壮的代码。下次定义结构体时，不妨多花几分钟想想对齐问题，说不定就能避免未来几小时的调试时间。