技术演进中的开发沉思-356：重排序（中）

做Java并发开发十几年，从最开始写多线程踩满坑，到后来吃透JMM（Java内存模型），慢慢发现：最基础、最能帮你避坑的，从来不是那些花里胡哨的同步工具，也不是各种高深的并发框架，而是你梳理的这两个核心规则------数据依赖性和as-if-serial语义。

很多新手刚接触并发，上来就死记volatile、synchronized的用法，甚至急着去学CountDownLatch、CyclicBarrier，却忽略了这两个规则是所有并发优化、同步机制的底层逻辑。说白了，搞懂这俩，你才能明白"为什么单线程写代码怎么写都不出错""为什么多线程下明明代码顺序对了，结果却乱了""为什么加了锁就没问题了"，这都是我当年踩过无数线上bug、熬夜排查后，才慢慢悟透的道理，今天就掏心窝子跟大家聊聊，不扯虚的，全是干货。

一、数据依赖性

先说说数据依赖性，你给的定义、类型都很准，我不扯那些晦涩的理论，就说点实际开发里的感悟，再补点当年踩过的坑。这个规则说白了就是：两个操作，只要沾了"同一个变量"，还带了"写操作"，那它们的顺序就不能乱------编译器再想优化，处理器再想提升效率，也得绕着走，这是铁律。

具体来说，就是你说的三种情况，我放一段当年刚学的时候写的测试代码，一看就懂，再补点我后来加的注释，都是实战心得：

java 复制代码

// 1. 写后读（W-R）：有数据依赖，绝对不重排
// 新手误区：以为只要是先后写，就一定有依赖，其实关键是"同一个变量+写操作"
int a = 1; // 写操作（修改a的值）
int b = a; // 读操作（依赖a的写结果，a变了，b就变）
// 单线程里，无论怎么优化，a=1一定先执行，b=a一定后执行，b必然是1，错不了

// 2. 写后写（W-W）：有数据依赖，绝对不重排
a = 2; // 第一次写（修改a为2）
a = 3; // 第二次写（依赖第一次写的结果，a先变成2，再变成3）
// 这里哪怕重排，最终a也是3，但编译器/处理器不会重排，因为违反依赖规则
// 实战提醒：多线程下，两个写操作哪怕有依赖，跨线程也可能出问题，后面细说

// 3. 读后写（R-W）：有数据依赖，绝对不重排
int c = a; // 读操作（先获取a当前的值，此时a是3）
a = 4; // 写操作（依赖a的读结果，基于当前a的值做修改，哪怕只是直接赋值）
// 这里不能重排为a=4再c=a，否则c就是4，和原逻辑完全不符，违反单线程语义

当年我刚写并发的时候，没吃透这个规则，还踩过一个特别低级的坑------我天真地以为，多线程下，只要我按"写后读"的顺序写代码，线程A写完a，线程B就能读到正确的a值，甚至还跟同事拍胸脯说"代码顺序没问题，肯定不会出bug"。

结果线上直接出bug，那段出问题的代码大概是这样的，很简单，但坑了我整整一天，排查到凌晨才找到问题根源，大家可以看看，新手很容易犯同样的错：

java 复制代码

// 共享变量：用于线程间传递信号和数据
private static int a = 0;
private static boolean flag = false;

// 线程A：负责计算数据a，计算完成后设置flag为true，通知线程B读取
new Thread(() -> {
    // 模拟复杂计算，耗时100ms
    try {
        Thread.sleep(100);
    } catch (InterruptedException e) {
        e.printStackTrace();
    }
    a = 1;      // 操作1：写a（计算完成，赋值正确结果）
    flag = true;// 操作2：写flag（通知线程B，此时a已经计算完成）
}, "线程A").start();

// 线程B：负责读取flag，一旦flag为true，就读取a的值并处理
new Thread(() -> {
    // 循环等待flag为true，新手常这么写，看似没问题
    while (!flag) {
        // 空循环，这里还有个坑：CPU会优化，导致flag一直读缓存，后面再补
    }
    // 期望打印1，实际偶尔打印0，线上bug就出在这
    System.out.println("a的值：" + a);
}, "线程B").start();

当时线上报错，日志里偶尔会出现"a的值：0"，我反复检查代码，线程A明明是先写a=1，再写flag=true，线程B也是flag=true才读a，怎么会读到0？后来翻了JMM的文档，再加上调试，才明白问题所在------这个数据依赖性规则，有个致命的前提：仅单线程/单处理器有效。

单线程里，编译器、处理器能清楚感知到这种依赖关系，绝对不会乱排，你写a=1再写b=a，无论怎么优化，b一定是1；但到了多线程、多处理器场景，CPU感知不到不同线程之间的依赖------线程A的操作1（写a）和操作2（写flag），因为没有数据依赖（操作1写a，操作2写flag，不是同一个变量），所以编译器/处理器会对它们重排，可能先执行flag=true，再执行a=1。

更坑的是，哪怕不重排，线程A写a=1后，数据会先存在本地内存（缓存），不会立即同步到主内存，线程B读a的时候，还是会读主内存的旧值0------这就是多线程有序性+可见性的双重坑，而数据依赖性，根本约束不了这种跨线程的问题。

这么多年总结下来：数据依赖性，就是给单线程的"保护伞"，给多线程的"迷魂阵"------单线程靠它保证结果正确，多线程千万别指望它，该加同步还得加。比如上面的bug，加个volatile就能解决，约束重排+强制同步，我后来修改后的代码是这样的：

java 复制代码

// 加volatile，双重保障：
// 1. 禁止a和flag的相关操作重排（线程A不会先写flag，再写a）
// 2. 强制写操作立即同步到主内存，读操作立即从主内存刷新
private static volatile int a = 0;
private static volatile boolean flag = false;

// 补充：线程B的空循环，最好加个Thread.yield()，避免CPU空转
while (!flag) {
    Thread.yield(); // 释放CPU资源，减少损耗，新手容易忽略
}

还有个新手常见误区，跟大家提一嘴：很多人以为，只要多线程里有写后读的操作，就一定有数据依赖，就能保证顺序------其实不是，数据依赖是"单线程内"的概念，跨线程的写后读，不算数据依赖，CPU感知不到，该重排还是会重排，该延迟还是会延迟。

二、as-if-serial语义

再聊as-if-serial语义，这个规则更实在，它给我们单线程开发省了太多事，甚至可以说，我们写单线程代码时的"直觉"，全是它给的。核心就一句话：单线程程序，无论编译器、处理器怎么重排序，最终的执行结果，一定和你按代码顺序一条条执行的结果一样。

我刚学Java的时候，根本不知道什么是重排序，什么是JMM，写单线程代码，从来没遇到过"代码顺序对了，结果错了"的情况。比如写个简单的计算、循环、赋值，哪怕代码写得再乱，执行结果也一定是对的。现在回头看，全是as-if-serial语义在背后撑腰，它就像一个"隐形的保镖"，默默保证单线程的安全。

比如这段单线程代码，我当年写过无数次，从来没出过错，就是因为as-if-serial语义：

java 复制代码

// 单线程代码，无数据依赖，可自由重排，但结果不变
int x = 10;
int y = 20;
x = x + 5; // x变成15
y = y * 2; // y变成40

// 编译器/处理器可能重排为：y=20 → y=40 → x=10 → x=15
// 也可能重排为：x=10 → y=20 → y=40 → x=15
// 但最终结果一定是x=15，y=40，和代码顺序执行一致
// 这就是as-if-serial语义的核心：怎么优化都行，结果不能变

再举个例子，你写a=1;b=2，编译器可能改成b=2;a=1，but 最终a一定是1，b一定是2；你写a=1;b=a，编译器绝对不会乱排，因为乱排就违反了这个语义，结果就错了------编译器和处理器比我们更怕"违反规则"，它们的优化，都是在这个语义的框架内进行的。

这个语义最大的好处，就是让我们写单线程代码时，不用去关心底层的优化细节------不用想"会不会重排""会不会读不到最新值""CPU会不会乱搞"，只要按正常逻辑写，结果就一定对。这也是为什么很多新手刚接触并发，一下子很难适应的原因：单线程里的"直觉"，到了多线程里，全被as-if-serial语义的局限性打破了。

as-if-serial语义的局限性很明显：它只保单线程，不保多线程。单线程里你高枕无忧，多线程里，它就成了"隐身衣"------线程A的重排序，在它自己眼里是"符合语义"的，结果也正确，但线程B看不到这种重排序，只能看到混乱的执行顺序，最终导致业务逻辑出错。

举个我当年踩过的大坑，至今记忆犹新，那是我工作第三年，写单例模式的双重检查锁，自信满满地上线，结果线上偶尔会出现空指针异常，排查了整整两天，才发现问题出在as-if-serial语义上。那段出问题的代码，相信很多新手也写过，大家可以自查一下：

java 复制代码

// 未加volatile，存在有序性问题，线上偶尔空指针
public class Singleton {
    // 关键：无volatile修饰，这是bug的根源
    private static Singleton instance;

    private Singleton() {
        // 模拟初始化操作，耗时50ms
        try {
            Thread.sleep(50);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    public static Singleton getInstance() {
        if (instance == null) { // 第一次检查：避免频繁加锁，提升效率
            synchronized (Singleton.class) { // 加锁：保证原子性
                if (instance == null) { // 第二次检查：防止多线程并发创建
                    // new操作看似是一步，实际分三步：
                    // 1. 分配内存空间
                    // 2. 初始化对象（调用构造方法）
                    // 3. 将instance引用指向分配的内存空间（instance≠null）
                    // 问题：步骤2和步骤3无数据依赖，编译器/处理器会重排为1→3→2
                    instance = new Singleton();
                }
            }
        }
        return instance;
    }
}

当时线上的报错，是空指针异常，报错位置在调用Singleton实例的方法时------明明getInstance()返回了instance，怎么会是空指针？后来调试才发现，就是因为as-if-serial语义：线程A里new对象的三步操作，被重排了（1→3→2），单线程里，这个重排是符合语义的，因为最终instance都会指向一个初始化完成的对象；但多线程下，就出问题了。

具体来说，线程A执行到instance = new Singleton()时，被重排为"分配内存→赋值引用→初始化对象"，当步骤3执行完成后，instance就不等于null了，但此时对象还没完成初始化（步骤2还没执行）；这时候，线程B执行第一次检查if (instance == null)，发现instance不等于null，就直接返回了这个"未初始化完成的instance"，后续调用方法，自然就空指针了。

这个bug，本质就是as-if-serial语义在多线程下失效导致的------线程A的重排，在它自己眼里是安全的，但线程B看不到这个重排，误以为instance已经初始化完成，最终导致出错。解决办法也简单，给instance加volatile，禁止重排，我修改后的代码就一行改动：

java 复制代码

// 加volatile，禁止new操作的三步重排，保证步骤1→2→3顺序执行
// 同时强制instance的修改立即同步到主内存，其他线程能及时看到最新值
private static volatile Singleton instance;

这里再补一个老程序员的心得：很多新手以为，synchronized能解决所有问题，其实不然------synchronized能保证原子性、可见性，但不能禁止重排序（它只能保证临界区内的操作相对顺序），所以双重检查锁里，哪怕加了synchronized，没有volatile，还是会出问题，这就是as-if-serial语义的"坑"，不吃透根本想不到。

还有一个常见场景，跟大家分享一下：单线程里，我们写try-catch-finally，finally里的代码一定会执行，这也是as-if-serial语义的体现------编译器不会因为优化，就把finally里的代码重排掉，哪怕try里有return，finally也会执行，这就是语义的约束，保证单线程的逻辑正确性。

最后小结

做并发开发这么多年，见过太多新手栽在这两个规则上，也见过太多老程序员靠这两个规则快速定位bug。总结下来，有几句掏心窝子的话，分享给大家，尤其是刚接触并发的新手：

数据依赖性 + as-if-serial语义，共同保证了单线程的"绝对安全"------单线程开发，放心按直觉写，底层有这俩规则兜底，不用纠结底层优化，节省大量精力。但要记住，这俩规则只在单线程里生效，多线程里，它们就是"纸老虎"，千万别指望。
新手最容易犯的错，就是把"单线程直觉"带到多线程开发里------以为单线程里没问题，多线程里也没问题；以为按"写后读"的顺序写代码，多线程里就能读到正确值；以为加了synchronized，就万事大吉。其实不然，多线程下，数据依赖约束不了跨线程操作，as-if-serial语义保证不了全局有序，该加volatile加volatile，该加锁加锁，别偷懒。
这俩规则，是理解所有同步机制的"钥匙"------为什么volatile能禁止重排？因为它约束了编译器和处理器，打破了默认的重排规则，保证了操作的有序性；为什么synchronized能保证可见性？因为它强制释放锁时，将本地内存的修改同步到主内存，本质也是在弥补"主内存-本地内存"的同步延迟，而这种延迟，正是重排序（尤其是内存系统重排序）的根源。
实际开发中，我的经验是：单线程逻辑，怎么简单怎么写，依赖as-if-serial语义和数据依赖性，不用画蛇添足加同步；多线程逻辑，先判断共享变量，再判断操作依赖，该加同步就加同步，优先用volatile（轻量），复杂场景用synchronized或锁，尽量避免靠"代码顺序"来保证并发安全------因为你以为的顺序，在CPU眼里，可能早就乱了。

最后再提醒一句：做Java并发，别急于求成记工具用法，先吃透这两个基础规则。当年我要是早点搞懂它们，也不会踩那么多无意义的坑，也不会熬夜排查那些看似"莫名其妙"的bug。这就是过来人的经验，务实、不花哨，但管用------吃透这俩规则，能让你少走一半弯路，少踩80%的并发坑。