扩散薛定谔桥(Diffusion Schrödinger Bridge)
1. 概述
扩散薛定谔桥(Diffusion Schrödinger Bridge, DSB)是一类在两个端点分布之间学习随机过渡动力学 的方法。其核心目标不是仅恢复终点样本,而是构造一条满足边界约束、且尽量接近某一参考扩散过程的路径分布 。在生成建模语境下,DSB 将"从简单分布到复杂分布"或"从源域到目标域"的问题表述为一个路径空间上的熵正则化传输问题 。(NeurIPS 会议论文集)
与标准扩散模型相比,DSB 的关键特征在于:其两端不必固定为"数据分布---高斯噪声分布",而可以是任意两个给定分布;因此,它天然适合无条件生成中的"先验到数据"建模,也适合条件生成中的"源域到目标域"桥接,例如图像恢复、图像翻译、跨时相生成和状态演化建模。I2SB 正是这一思想在图像到图像条件生成中的代表性实现。(NeurIPS 会议论文集)
2. 数学定义与问题形式
设有两个边缘分布:
- 初始分布 p 0 p_0 p0
- 终止分布 p 1 p_1 p1
并给定一个参考随机过程 R R R(通常为布朗运动或某类扩散过程)。薛定谔桥问题可表述为:在所有满足两端边界约束的路径分布中,寻找一个与参考过程最接近的路径分布 P ∗ P^* P∗:
P ∗ = arg min P : , P 0 = p 0 , ; P 1 = p 1 K L ( P ∣ R ) . P^*=\arg\min_{P:,P_0=p_0,;P_1=p_1}\mathrm{KL}(P|R). P∗=argP:,P0=p0,;P1=p1minKL(P∣R).
该形式表明,DSB 的本质不是学习一个静态映射 x ↦ y x\mapsto y x↦y,而是学习一个受边界分布约束的随机动力系统 。从最优传输角度看,它可视为动态熵正则化最优传输 ;当扩散噪声趋于零时,其路径与 OT 视角下的确定性传输具有紧密联系。(NeurIPS 会议论文集)
3. 与标准扩散模型的关系
3.1 相似性:训练接口层面的继承
大量 DSB 方法,尤其是 I2SB,一般在实现上沿用标准扩散模型的训练接口:
- 随机采样时间 t t t
- 构造中间状态 x t x_t xt
- 输入神经网络 ( x t , t , cond ) (x_t,t,\text{cond}) (xt,t,cond)
- 预测噪声、score 或等价修正量
- 采用 MSE 一类回归损失。(Proceedings of Machine Learning Research)
因此,从代码结构、网络骨干和损失外形上看,DSB 常常与 diffusion-based training 高度相似。
3.2 差异性:建模对象与概率路径的变化
然而,DSB 与标准扩散模型的根本差异并不在于损失公式的表面形式,而在于建模对象 与概率路径:
- 标准扩散模型主要建模"数据分布 ↔ \leftrightarrow ↔ 噪声分布"的加噪---去噪过程;
- DSB 建模的是"分布 p 0 ↔ p 1 p_0 \leftrightarrow p_1 p0↔p1"之间的桥接动力学,其中两端都可以是真实分布。(NeurIPS 会议论文集)
因此,可以说 DSB 在工程实现上常借用 diffusion 的训练框架,但其理论目标是更一般的双边分布桥接问题,而非单纯的"从噪声恢复数据"。
4. 与最优传输、Flow Matching 的关系
DSB 与最优传输(OT)之间存在清晰联系。OT 关注的是以最小代价将分布 p 0 p_0 p0 搬运至 p 1 p_1 p1 的确定性路径,而 DSB 则是在参考随机过程的约束下,寻找满足边界条件的最优随机路径,因此常被理解为带熵正则的动态 OT 。(NeurIPS 会议论文集)
与 Flow Matching 相比,DSB 原生更偏向随机动力学 / SDE 视角 ,而 Flow Matching 更偏向确定性速度场 / ODE 视角 。不过,后续工作已表明,score matching、flow matching 与 Schrödinger bridge 可以在"simulation-free stochastic dynamics learning"的统一框架下理解。[SF]²M 就是一个重要代表,它将 score matching 与 flow matching 共同解释为 Schrödinger bridge 视角下的训练目标推广。(Proceedings of Machine Learning Research)
5. 方法分类:无条件 DSB 与条件 DSB
5.1 无条件 DSB
无条件 DSB 的典型设定是:
- 起点:简单先验分布(如高斯)
- 终点:真实数据分布
目标是在有限时间内构造一个随机桥,使样本从先验逐步演化为数据样本。经典 DSB 工作通过近似 Iterative Proportional Fitting(IPF)来交替逼近 forward / backward dynamics,从而求解该桥。(NeurIPS 会议论文集)
5.2 条件 DSB:I2SB
I2SB 面向图像到图像任务,将两端设为:
- 源域分布(如退化图、模糊图、灾前图)
- 目标域分布(如清晰图、恢复图、灾后图)
I2SB 的关键贡献在于:它在一类可 tractable 的 bridge 上推导出了给定边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 时中间态边缘的解析形式 ,从而将原本复杂的 bridge training 转化为与标准扩散训练相似的、可大规模扩展的监督回归框架。(Proceedings of Machine Learning Research)
6. 模型结构设计
从神经网络实现层面看,DSB 并不依赖某种唯一的特定架构。其关键不在于"必须采用何种 backbone",而在于"如何参数化 bridge dynamics / score / drift / velocity"。
6.1 经典 DSB 的结构特征
经典 DSB 需要近似 forward 和 backward 两个方向的动力学,因此常采用两套时间相关网络,或通过不同训练阶段交替拟合同一类时间条件模型。原始工作在图像实验中采用了简化版 U-Net。(NeurIPS 会议论文集)
6.2 I2SB 的结构特征
I2SB 在工程上基本沿用标准扩散主干:
- 主干网络:U-Net
- 输入:中间态 X t X_t Xt 与时间 t t t
- 条件:源端样本 X 0 X_0 X0,必要时可扩展为 mask、文本、几何先验等
- 输出:噪声、score 或等价参数化目标。(Proceedings of Machine Learning Research)
因此,在实际应用中,I2SB 更像是bridge-aware conditional diffusion,而不是一种完全脱离 diffusion 工程范式的新骨干网络。
7. 训练机制:经典 DSB 与 I2SB 的区别
7.1 经典 DSB:基于 IPF 的交替训练
经典 DSB 的训练可理解为一个近似 IPF 过程:
- 固定当前 forward process;
- 采样 forward paths;
- 拟合 backward dynamics;
- 固定 backward process;
- 采样 backward paths;
- 再拟合 forward dynamics;
- 多轮外层迭代后逐步逼近桥解。(NeurIPS 会议论文集)
这种训练方式直接反映了 SB 求解的双向耦合本质,但训练流程相对复杂,数值负担也较重。
经典 DSB 训练伪代码
text
Algorithm 1 Unconditional Diffusion Schrödinger Bridge Training
Input:
prior distribution p_prior
data distribution p_data
ForwardNet, BackwardNet
Initialize model parameters
for outer_iter = 1 ... K do
# Step A: fit backward dynamics
for step = 1 ... N1 do
sample z0 ~ p_prior
simulate forward trajectory using ForwardNet:
z0 -> z1 -> ... -> zT
update BackwardNet so that it predicts
how to move from zt to z_{t-1}
end for
# Step B: fit forward dynamics
for step = 1 ... N2 do
sample xT ~ p_data
simulate backward trajectory using BackwardNet:
xT -> x_{T-1} -> ... -> x0
update ForwardNet so that it predicts
how to move from xt to x_{t+1}
end for
end for
Output:
trained ForwardNet, BackwardNet
经典 DSB 推理伪代码
text
Algorithm 2 Unconditional Diffusion Schrödinger Bridge Sampling
Input:
z0 ~ p_prior
trained ForwardNet
x <- z0
for t = 0 ... T-1 do
pred <- ForwardNet(x, t)
x <- bridge_forward_step(x, pred, t)
end for
return x
7.2 I2SB:解析中间态 + 监督回归
I2SB 的训练逻辑显著不同。给定边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 后,I2SB 推导出中间态条件边缘:
q ( X t ∣ X 0 , X 1 ) = N ( μ t ( X 0 , X 1 ) , Σ t ) . q(X_t \mid X_0, X_1)=\mathcal{N}(\mu_t(X_0,X_1), \Sigma_t). q(Xt∣X0,X1)=N(μt(X0,X1),Σt).
这意味着训练时无需先数值模拟整条 bridge path,而可以直接:
- 采样边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1);
- 随机采样时间 t t t;
- 从解析中间态分布中采样 X t X_t Xt;
- 构造解析可得的监督目标;
- 用标准扩散式网络做监督回归。(Proceedings of Machine Learning Research)
这正是 I2SB 所谓的 simulation-free 训练思想。
I2SB 训练伪代码
text
Algorithm 3 I2SB Training
Input:
paired samples (X0, X1)
Model(Xt, t, cond=X0)
for iter = 1 ... MaxIter do
sample (X0, X1)
sample t ~ Uniform(0, 1)
# sample bridge state
sample Xt ~ q_bridge(Xt | X0, X1, t)
# compute analytic target
target <- bridge_target(Xt, X0, X1, t)
pred <- Model(Xt, t, cond=X0)
loss <- MSE(pred, target)
update model parameters
end for
Output:
trained Model
I2SB 推理伪代码
text
Algorithm 4 I2SB Sampling
Input:
source sample X0
trained Model
x <- X0
for t = T ... 1 do
pred <- Model(x, t, cond=X0)
x <- bridge_step(x, pred, t)
end for
return x
8. I2SB 中最关键的两步:中间态采样与监督目标构造
这是理解 I2SB 的核心。
8.1 第 3 步:采样中间态 X t X_t Xt
训练中常写为:
X t ∼ q bridge ( X t ∣ X 0 , X 1 , t ) . X_t \sim q_{\text{bridge}}(X_t \mid X_0, X_1, t). Xt∼qbridge(Xt∣X0,X1,t).
这一过程通常不是模型学习出来的 ,而是由 bridge 的数学形式事先规定好的。I2SB 的关键结论是:在其选取的 tractable nonlinear diffusion bridge 类中,中间态边缘可以解析写成高斯分布,因此 X t X_t Xt 可直接按公式采样。(Proceedings of Machine Learning Research)
从实现角度看,这一步通常等价于:
python
mu_t = weighted_mean(X0, X1, t)
var_t = bridge_variance(t)
eps = Normal(0, I).sample_like(X0)
Xt = mu_t + sqrt(var_t) * eps
因此:
- 桥的形式是预先设计和推导的;
- 具体某个中间态样本是从该分布中随机采样得到的;
- 模型本身不负责"学习如何生成训练中间态分布"。
8.2 第 4 步:构造监督目标 target
在 I2SB 中,监督目标通常同样由解析公式给出,而不是由模型自行定义。以论文中的常见参数化为例,目标项可写为:
target = X t − X 0 σ t . \text{target}=\frac{X_t-X_0}{\sigma_t}. target=σtXt−X0.
这意味着,给定中间态 X t X_t Xt、边界端点 X 0 X_0 X0 和噪声尺度 σ t \sigma_t σt 后,监督信号可直接计算出来。模型学习的是:
( X t , t , cond ) ↦ target . (X_t,t,\text{cond}) \mapsto \text{target}. (Xt,t,cond)↦target.
而不是:
( X 0 , X 1 , t ) ↦ q ( X t ∣ X 0 , X 1 ) . (X_0,X_1,t) \mapsto q(X_t|X_0,X_1). (X0,X1,t)↦q(Xt∣X0,X1).
换言之,在 I2SB 框架中:
- 第 3 步是"按 bridge 公式出题"
- 第 4 步是"按解析表达式给标准答案"
- 神经网络则是"学习如何解这道题"。(Proceedings of Machine Learning Research)
这两步的角色划分
预先规定 / 理论推导得到的部分:
- bridge schedule
- 中间态分布 q ( X t ∣ X 0 , X 1 ) q(X_t|X_0,X_1) q(Xt∣X0,X1)
- target 的解析形式。(Proceedings of Machine Learning Research)
模型学习的部分:
- 从 ( X t , t , cond ) (X_t,t,\text{cond}) (Xt,t,cond) 预测上述 target
- 从而掌握 bridge 上的局部更新规律。(Proceedings of Machine Learning Research)
这也是 I2SB 能够大规模训练的重要原因:它把"桥样本构造"和"监督信号构造"解析化了,从而将训练问题化简为一个稳定的监督回归问题。(Proceedings of Machine Learning Research)
9. 噪声在 DSB 中扮演的角色
DSB 不是"没有噪声",而是"噪声不再只是唯一端点"。在标准 diffusion 中,噪声往往是一个显式端点;在 DSB 中,噪声主要用于:
- 维持桥的随机性;
- 构造桥上的中间态;
- 保证生成结果具有多样性。(NeurIPS 会议论文集)
因此,对 DSB 更准确的表述是:
它不要求必须把样本一路加噪到纯高斯;它更关心如何在两端之间定义一个带噪的随机桥接过程。
10. 代表性工作与方法脉络
10.1 Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling
这是经典 DSB 工作,核心贡献在于将 SB 问题与 score-based generative modeling 联系起来,并通过近似 IPF 给出可训练的 DSB 求解方式。其第一轮 DSB 迭代可恢复出与标准 score-based diffusion 紧密相关的方法视角。(NeurIPS 会议论文集)
10.2 I²SB: Image-to-Image Schrödinger Bridge
这是条件图像生成语境下最具代表性的 DSB 方法。其关键创新在于:利用一类 tractable nonlinear diffusion bridge 的解析边缘分布,将 bridge learning 化简为 simulation-free 的扩散式训练,从而高效支持图像恢复与图像到图像建模。(Proceedings of Machine Learning Research)
10.3 Simulation-Free Schrödinger Bridges via Score and Flow Matching
该工作进一步从统一视角解释了 Schrödinger bridge、score matching 与 flow matching 的关系,说明 bridge learning 不仅可与 diffusion 视角相连,也可与 flow-based training 形成更广义的统一框架。(Proceedings of Machine Learning Research)
11. 总结
扩散薛定谔桥是一类以双端分布约束 为核心的随机生成建模方法。与标准 diffusion 相比,它并未简单改变训练外壳,而是改变了底层问题设定:从"噪声---数据"的单端去噪框架,扩展为"分布 A---分布 B"的桥接框架。经典 DSB 借助 IPF 近似求解双向桥过程;I2SB 则通过解析中间态与解析监督目标,将桥学习化为可扩展的 diffusion-style supervised regression;而后续 simulation-free 工作又将 bridge、score 和 flow 进一步纳入统一理解。(NeurIPS 会议论文集)
如果把它压缩成一句最核心的话,可以写成:
DSB 的本质不是"从噪声恢复数据",而是"在两个端点分布之间学习一条随机但受约束的演化路径";I2SB 则是在图像到图像条件生成中,将这一桥接过程做成了解析可采样、训练可扩展的扩散式模型。 (NeurIPS 会议论文集)