计算机体系结构2-内存一致性

一、先搞懂：内存一致性到底是什么？

内存一致性模型定义了多线程/多核环境下，多个线程对不同内存地址的读写操作，以何种顺序被其他线程看到，以及操作结果是否合法。
关键澄清：内存一致性 ≠ 缓存一致性

两者分属不同层面，核心区别的核心：

缓存一致性：聚焦单个内存地址，解决多核缓存与主存、其他缓存的数据同步，由硬件（如MESI协议）自动实现。
内存一致性：聚焦多个内存地址，解决多线程对不同地址读写的顺序性问题，需通过模型约束或同步操作保障。
举例：缓存一致性保证线程1修改X后，线程2最终能读到新值；内存一致性则保证线程1先改X再改Y时，线程2不会出现"读到Y新值、却读到X旧值"的情况（具体看一致性模型）。

单线程、单核时代无内存一致性问题，程序按编写顺序执行；多核多线程时代，硬件与软件的性能优化会打破程序顺序，引发问题，核心优化手段有3种：

直觉上r1和r2不可能同时为0，但在ARM、PowerPC等弱一致性模型下，编译器/CPU可能重排操作，导致两者同时为0------这就是未约束内存一致性的后果。

不同硬件、编程语言采用不同一致性模型，本质是"性能"与"易用性"的权衡：模型越强，程序越易预测但性能越低；模型越弱，性能越高但程序员需承担更多同步责任。主流模型从强到弱如下：

顺序一致性（SC）：最直观的强模型
核心规则：所有线程的内存操作遵循全局统一线性顺序，且每个线程自身操作遵循程序序。SC模型下，上述案例中r1和r2不会同时为0，但严格限制优化，性能极低，无现代商用CPU采用，仅作为理想参考。
总存储顺序（TSO）：x86架构的"折中选择"
x86、x86-64架构采用，比SC弱、比ARM模型强。核心特点：CPU维护存储缓冲区，写操作先入缓冲区再异步刷回主存，读操作优先读缓冲区。TSO模型下，上述案例中r1和r2不会同时为0，这也是x86平台多线程代码易忽略同步的原因（但不代表无问题）。
释放一致性（RC）：编程语言的"常用模型"
Java、C++11+采用的语言级模型，核心是通过显式同步操作（锁、原子操作）约束内存操作的顺序和可见性，而非全局约束。

弱一致性：ARM/PowerPC的"高性能模型"
ARM、PowerPC等架构采用，几乎不约束内存操作顺序，编译器和CPU可自由重排（不违反单线程语义），需显式插入内存屏障保证顺序，否则易出Bug，上述案例中r1和r2可同时为0。

核心目标：保证程序正确性的同时，利用硬件优化提升性能，3个核心解决方案如下：

误区1：volatile能解决所有内存一致性问题

volatile仅保证可见性和禁止重排，不保证原子性，如volatile修饰的i++仍会出现线程安全问题（i++是读-改-写组合操作）。

误区2：x86平台下不需要关注内存一致性

x86的TSO模型虽约束较强，但仍存在内存一致性问题，多线程对不同变量的读写可能乱序，CPU升级也可能打破原有约束。

误区3：内存屏障越多越好

内存屏障会阻止优化，越多性能损失越大，仅在需保证顺序的地方插入即可，避免滥用。

内存一致性的核心是"程序正确性"与"硬件性能"的权衡，程序员需理解模型规则，通过合理同步让程序在各架构下正常运行。

多数开发者无需深入底层，记住3点即可：