30.分布式事务：本地事务 + RPC 的“隐形炸弹”

分布式事务：本地事务 + RPC 的"隐形炸弹"

只要系统被拆成多个微服务，"分布式事务"就绕不过去。

很多同学只记住了 @Transactional，却忽略了一个关键事实：
它只对本地数据库负责，对远端 RPC 一无所知。

真正的坑，往往就埋在"本地事务里嵌套 RPC 调用"这一行代码里。

一、问题场景：A 调 B，要保证状态一致

典型面试题：

系统 A、系统 B，通过 RPC 相互调用。
有个业务要求：两边的状态必须一致。
A 中有一个方法加了 @Transactional：
1. 先通过 RPC 调 B，B 把状态更新为"生效中"。
2. 根据 B 的返回结果，A 更新自己的本地数据为"生效中"。

问：可能出现什么问题？

二、几个常见的坑

1. 长时间 RPC 拖垮数据库

A 在开启本地事务后，发起一个执行时间很长的 RPC。
事务期间，数据库连接一直被占用；
高并发时，很容易把连接池拖到见底，引发雪崩。

2. B 成功，A 回滚：两边状态不一致

B 更新成功，状态"生效中"。
A 在本地更新时抛异常，事务回滚，A 依然是旧状态。
最终：B 生效，A 未生效，数据不一致。

3. B 实际成功，但 A 认为失败

网络抖动导致 RPC 超时：
- B 实际已经成功处理；
- A 认为调用失败，可能回滚本地事务；
- 两边状态再次不一致。

4. 超时后的"不确定性"

超时发生时，A 无法判断 B 是否执行成功。
单靠本地事务，根本无法解决这种"不确定结果"的问题。

三、本质：`@Transactional` 只管本地，不管远端

这一类问题的本质：

@Transactional 只对本地数据库 负责：
- 能确保 A 自己的多条 SQL 是原子性的；
- 无法保证包含 RPC 在内的整个调用链是一致的。

想拿 @Transactional 去覆盖远端服务，是思维上的错位。

四、主流解法一：本地消息表（最终一致）

1. 思路

把"本地更新"和"对外发送一条消息"放在同一个本地事务中。
事务提交成功后，代表：
- A 的本地状态已更新；
- 要通知 B 的"消息"已经可靠地写入消息表。
后台有一个异步任务：
- 从本地消息表里捞出未发送或发送失败的记录；
- 不停重试调用 B 的接口，直到成功或超过重试上限。

2. 特点

获得的是最终一致性，而不是强一致。
避免了本地事务直接包含长时间 RPC。
实现简单，常用在中小规模系统中。

五、主流解法二：MQ 事务消息（交给消息中间件协调）

1. 思路

如果系统中已经有 MQ（如 RocketMQ）：

A 首先发送一条"半消息"到 MQ；
然后在本地开启事务，更新自己的数据库；
本地事务成功后，告知 MQ 提交这条消息为"正式消息"；
B 订阅消费这条消息，更新自己的状态。

如果 MQ 一段时间内没收到"提交/回滚"的反馈，它会：

反查 A 的本地事务状态；
决定是提交还是丢弃这条消息。

2. 特点

把"事务协调"的复杂度交给 MQ。
适合对可靠性要求很高、链路较长的分布式系统。

六、主流解法三：同步调用 + 业务补偿（TCC 思路）

1. 思路

执行主业务时，同时设计一条对应的补偿路径（rollback）。
当任何一个环节失败时，通过调用远端的补偿接口，把状态拉回去。
不刻意追求"瞬时强一致"，而是通过补偿达到"最终一致"。

2. 特点

非常考验业务建模能力：
- 要为每种变更设计清晰的"撤销逻辑"。
通常只在关键链路、金额类核心业务中使用。

七、异步任务失败后的兜底

以本地消息表为例，面试官常追问：

如果异步任务也一直失败怎么办？

可按以下层次回答：

在消息表中记录重试次数；
每次失败次数 +1；
超过阈值（如 3 次或 5 次）：
- 标记为"死信"或"失败状态"；
- 触发告警，由运维或业务方人工干预；
也可以设计死信队列，专门承接多次失败的消息。

八、没有银弹，只有权衡

@Transactional 解决的是单服务内一致性。
分布式场景更多要接受：最终一致性 + 补偿机制。
选型要在：
- 实现复杂度
- 链路时延
- 一致性要求
  之间做平衡。

九、面试思路

先说明问题本质：
- 本地事务 + RPC 是不可靠的，@Transactional 不等于分布式事务。
再给出主流方案：
- 本地消息表 → 最常见且易实现；
- MQ 事务消息 → 更规范但对基础设施依赖更高。
然后提到补偿思路：
- 对强依赖同步链路，可以设计补偿接口落地 TCC。
最后回答面试官追问：
- 本地消息表的重试机制、死信队列、人工介入策略。

30.分布式事务：本地事务 + RPC 的“隐形炸弹”

分布式事务：本地事务 + RPC 的"隐形炸弹"

一、问题场景：A 调 B，要保证状态一致

二、几个常见的坑

1. 长时间 RPC 拖垮数据库

2. B 成功，A 回滚：两边状态不一致

3. B 实际成功，但 A 认为失败

4. 超时后的"不确定性"

三、本质：@Transactional 只管本地，不管远端

四、主流解法一：本地消息表（最终一致）

1. 思路

2. 特点

五、主流解法二：MQ 事务消息（交给消息中间件协调）

1. 思路

2. 特点

六、主流解法三：同步调用 + 业务补偿（TCC 思路）

1. 思路

2. 特点

七、异步任务失败后的兜底

八、没有银弹，只有权衡

九、面试思路

三、本质：`@Transactional` 只管本地，不管远端