扩散薛定谔桥（Diffusion Schrödinger Bridge）

1. 概述

扩散薛定谔桥（Diffusion Schrödinger Bridge, DSB）是一类在两个端点分布之间学习随机过渡动力学 的方法。其核心目标不是仅恢复终点样本，而是构造一条满足边界约束、且尽量接近某一参考扩散过程的路径分布 。在生成建模语境下，DSB 将"从简单分布到复杂分布"或"从源域到目标域"的问题表述为一个路径空间上的熵正则化传输问题 。(NeurIPS 会议论文集)

与标准扩散模型相比，DSB 的关键特征在于：其两端不必固定为"数据分布---高斯噪声分布"，而可以是任意两个给定分布；因此，它天然适合无条件生成中的"先验到数据"建模，也适合条件生成中的"源域到目标域"桥接，例如图像恢复、图像翻译、跨时相生成和状态演化建模。I2SB 正是这一思想在图像到图像条件生成中的代表性实现。(NeurIPS 会议论文集)

2. 数学定义与问题形式

设有两个边缘分布：

初始分布 p 0 p_0 p0
终止分布 p 1 p_1 p1

并给定一个参考随机过程 R R R（通常为布朗运动或某类扩散过程）。薛定谔桥问题可表述为：在所有满足两端边界约束的路径分布中，寻找一个与参考过程最接近的路径分布 P ∗ P^* P∗：

P ∗ = arg ⁡ min ⁡ P : , P 0 = p 0 , ; P 1 = p 1 K L ( P ∣ R ) . P^*=\arg\min_{P:,P_0=p_0,;P_1=p_1}\mathrm{KL}(P|R). P∗=argP:,P0=p0,;P1=p1minKL(P∣R).

该形式表明，DSB 的本质不是学习一个静态映射 x ↦ y x\mapsto y x↦y，而是学习一个受边界分布约束的随机动力系统 。从最优传输角度看，它可视为动态熵正则化最优传输 ；当扩散噪声趋于零时，其路径与 OT 视角下的确定性传输具有紧密联系。(NeurIPS 会议论文集)

3. 与标准扩散模型的关系

3.1 相似性：训练接口层面的继承

大量 DSB 方法，尤其是 I2SB，一般在实现上沿用标准扩散模型的训练接口：

随机采样时间 t t t
构造中间状态 x t x_t xt
输入神经网络 ( x t , t , cond ) (x_t,t,\text{cond}) (xt,t,cond)
预测噪声、score 或等价修正量
采用 MSE 一类回归损失。(Proceedings of Machine Learning Research)

因此，从代码结构、网络骨干和损失外形上看，DSB 常常与 diffusion-based training 高度相似。

3.2 差异性：建模对象与概率路径的变化

然而，DSB 与标准扩散模型的根本差异并不在于损失公式的表面形式，而在于建模对象 与概率路径：

标准扩散模型主要建模"数据分布 ↔ \leftrightarrow ↔ 噪声分布"的加噪---去噪过程；
DSB 建模的是"分布 p 0 ↔ p 1 p_0 \leftrightarrow p_1 p0↔p1"之间的桥接动力学，其中两端都可以是真实分布。(NeurIPS 会议论文集)

因此，可以说 DSB 在工程实现上常借用 diffusion 的训练框架，但其理论目标是更一般的双边分布桥接问题，而非单纯的"从噪声恢复数据"。

4. 与最优传输、Flow Matching 的关系

DSB 与最优传输（OT）之间存在清晰联系。OT 关注的是以最小代价将分布 p 0 p_0 p0 搬运至 p 1 p_1 p1 的确定性路径，而 DSB 则是在参考随机过程的约束下，寻找满足边界条件的最优随机路径，因此常被理解为带熵正则的动态 OT 。(NeurIPS 会议论文集)

与 Flow Matching 相比，DSB 原生更偏向随机动力学 / SDE 视角 ，而 Flow Matching 更偏向确定性速度场 / ODE 视角 。不过，后续工作已表明，score matching、flow matching 与 Schrödinger bridge 可以在"simulation-free stochastic dynamics learning"的统一框架下理解。 $SF$ ²M 就是一个重要代表，它将 score matching 与 flow matching 共同解释为 Schrödinger bridge 视角下的训练目标推广。(Proceedings of Machine Learning Research)

5. 方法分类：无条件 DSB 与条件 DSB

5.1 无条件 DSB

无条件 DSB 的典型设定是：

起点：简单先验分布（如高斯）
终点：真实数据分布

目标是在有限时间内构造一个随机桥，使样本从先验逐步演化为数据样本。经典 DSB 工作通过近似 Iterative Proportional Fitting（IPF）来交替逼近 forward / backward dynamics，从而求解该桥。(NeurIPS 会议论文集)

5.2 条件 DSB：I2SB

I2SB 面向图像到图像任务，将两端设为：

源域分布（如退化图、模糊图、灾前图）
目标域分布（如清晰图、恢复图、灾后图）

I2SB 的关键贡献在于：它在一类可 tractable 的 bridge 上推导出了给定边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 时中间态边缘的解析形式 ，从而将原本复杂的 bridge training 转化为与标准扩散训练相似的、可大规模扩展的监督回归框架。(Proceedings of Machine Learning Research)

6. 模型结构设计

从神经网络实现层面看，DSB 并不依赖某种唯一的特定架构。其关键不在于"必须采用何种 backbone"，而在于"如何参数化 bridge dynamics / score / drift / velocity"。

6.1 经典 DSB 的结构特征

经典 DSB 需要近似 forward 和 backward 两个方向的动力学，因此常采用两套时间相关网络，或通过不同训练阶段交替拟合同一类时间条件模型。原始工作在图像实验中采用了简化版 U-Net。(NeurIPS 会议论文集)

6.2 I2SB 的结构特征

I2SB 在工程上基本沿用标准扩散主干：

主干网络：U-Net
输入：中间态 X t X_t Xt 与时间 t t t
条件：源端样本 X 0 X_0 X0，必要时可扩展为 mask、文本、几何先验等
输出：噪声、score 或等价参数化目标。(Proceedings of Machine Learning Research)

因此，在实际应用中，I2SB 更像是bridge-aware conditional diffusion，而不是一种完全脱离 diffusion 工程范式的新骨干网络。

7. 训练机制：经典 DSB 与 I2SB 的区别

7.1 经典 DSB：基于 IPF 的交替训练

经典 DSB 的训练可理解为一个近似 IPF 过程：

固定当前 forward process；
采样 forward paths；
拟合 backward dynamics；
固定 backward process；
采样 backward paths；
再拟合 forward dynamics；
多轮外层迭代后逐步逼近桥解。(NeurIPS 会议论文集)

这种训练方式直接反映了 SB 求解的双向耦合本质，但训练流程相对复杂，数值负担也较重。

经典 DSB 训练伪代码

text 复制代码

Algorithm 1  Unconditional Diffusion Schrödinger Bridge Training

Input:
    prior distribution p_prior
    data distribution p_data
    ForwardNet, BackwardNet

Initialize model parameters

for outer_iter = 1 ... K do

    # Step A: fit backward dynamics
    for step = 1 ... N1 do
        sample z0 ~ p_prior
        simulate forward trajectory using ForwardNet:
            z0 -> z1 -> ... -> zT
        update BackwardNet so that it predicts
            how to move from zt to z_{t-1}
    end for

    # Step B: fit forward dynamics
    for step = 1 ... N2 do
        sample xT ~ p_data
        simulate backward trajectory using BackwardNet:
            xT -> x_{T-1} -> ... -> x0
        update ForwardNet so that it predicts
            how to move from xt to x_{t+1}
    end for

end for

Output:
    trained ForwardNet, BackwardNet

经典 DSB 推理伪代码

text 复制代码

Algorithm 2  Unconditional Diffusion Schrödinger Bridge Sampling

Input:
    z0 ~ p_prior
    trained ForwardNet

x <- z0
for t = 0 ... T-1 do
    pred <- ForwardNet(x, t)
    x <- bridge_forward_step(x, pred, t)
end for

return x

7.2 I2SB：解析中间态 + 监督回归

I2SB 的训练逻辑显著不同。给定边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 后，I2SB 推导出中间态条件边缘：

q ( X t ∣ X 0 , X 1 ) = N ( μ t ( X 0 , X 1 ) , Σ t ) . q(X_t \mid X_0, X_1)=\mathcal{N}(\mu_t(X_0,X_1), \Sigma_t). q(Xt∣X0,X1)=N(μt(X0,X1),Σt).

这意味着训练时无需先数值模拟整条 bridge path，而可以直接：

采样边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1)；
随机采样时间 t t t；
从解析中间态分布中采样 X t X_t Xt；
构造解析可得的监督目标；
用标准扩散式网络做监督回归。(Proceedings of Machine Learning Research)

这正是 I2SB 所谓的 simulation-free 训练思想。

I2SB 训练伪代码

text 复制代码

Algorithm 3  I2SB Training

Input:
    paired samples (X0, X1)
    Model(Xt, t, cond=X0)

for iter = 1 ... MaxIter do
    sample (X0, X1)
    sample t ~ Uniform(0, 1)

    # sample bridge state
    sample Xt ~ q_bridge(Xt | X0, X1, t)

    # compute analytic target
    target <- bridge_target(Xt, X0, X1, t)

    pred <- Model(Xt, t, cond=X0)
    loss <- MSE(pred, target)

    update model parameters
end for

Output:
    trained Model

I2SB 推理伪代码

text 复制代码

Algorithm 4  I2SB Sampling

Input:
    source sample X0
    trained Model

x <- X0
for t = T ... 1 do
    pred <- Model(x, t, cond=X0)
    x <- bridge_step(x, pred, t)
end for

return x

8. I2SB 中最关键的两步：中间态采样与监督目标构造

这是理解 I2SB 的核心。

8.1 第 3 步：采样中间态 X t X_t Xt

训练中常写为：

X t ∼ q bridge ( X t ∣ X 0 , X 1 , t ) . X_t \sim q_{\text{bridge}}(X_t \mid X_0, X_1, t). Xt∼qbridge(Xt∣X0,X1,t).

这一过程通常不是模型学习出来的 ，而是由 bridge 的数学形式事先规定好的。I2SB 的关键结论是：在其选取的 tractable nonlinear diffusion bridge 类中，中间态边缘可以解析写成高斯分布，因此 X t X_t Xt 可直接按公式采样。(Proceedings of Machine Learning Research)

从实现角度看，这一步通常等价于：

python 复制代码

mu_t  = weighted_mean(X0, X1, t)
var_t = bridge_variance(t)
eps   = Normal(0, I).sample_like(X0)
Xt    = mu_t + sqrt(var_t) * eps

因此：

桥的形式是预先设计和推导的；
具体某个中间态样本是从该分布中随机采样得到的；
模型本身不负责"学习如何生成训练中间态分布"。

8.2 第 4 步：构造监督目标 target

在 I2SB 中，监督目标通常同样由解析公式给出，而不是由模型自行定义。以论文中的常见参数化为例，目标项可写为：

target = X t − X 0 σ t . \text{target}=\frac{X_t-X_0}{\sigma_t}. target=σtXt−X0.

这意味着，给定中间态 X t X_t Xt、边界端点 X 0 X_0 X0 和噪声尺度 σ t \sigma_t σt 后，监督信号可直接计算出来。模型学习的是：

( X t , t , cond ) ↦ target . (X_t,t,\text{cond}) \mapsto \text{target}. (Xt,t,cond)↦target.

而不是：

( X 0 , X 1 , t ) ↦ q ( X t ∣ X 0 , X 1 ) . (X_0,X_1,t) \mapsto q(X_t|X_0,X_1). (X0,X1,t)↦q(Xt∣X0,X1).

换言之，在 I2SB 框架中：

第 3 步是"按 bridge 公式出题"
第 4 步是"按解析表达式给标准答案"
神经网络则是"学习如何解这道题"。(Proceedings of Machine Learning Research)

这两步的角色划分

预先规定 / 理论推导得到的部分：

bridge schedule
中间态分布 q ( X t ∣ X 0 , X 1 ) q(X_t|X_0,X_1) q(Xt∣X0,X1)
target 的解析形式。(Proceedings of Machine Learning Research)

模型学习的部分：

从 ( X t , t , cond ) (X_t,t,\text{cond}) (Xt,t,cond) 预测上述 target
从而掌握 bridge 上的局部更新规律。(Proceedings of Machine Learning Research)

这也是 I2SB 能够大规模训练的重要原因：它把"桥样本构造"和"监督信号构造"解析化了，从而将训练问题化简为一个稳定的监督回归问题。(Proceedings of Machine Learning Research)

9. 噪声在 DSB 中扮演的角色

DSB 不是"没有噪声"，而是"噪声不再只是唯一端点"。在标准 diffusion 中，噪声往往是一个显式端点；在 DSB 中，噪声主要用于：

维持桥的随机性；
构造桥上的中间态；
保证生成结果具有多样性。(NeurIPS 会议论文集)

因此，对 DSB 更准确的表述是：

它不要求必须把样本一路加噪到纯高斯；它更关心如何在两端之间定义一个带噪的随机桥接过程。

10. 代表性工作与方法脉络

10.1 Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling

这是经典 DSB 工作，核心贡献在于将 SB 问题与 score-based generative modeling 联系起来，并通过近似 IPF 给出可训练的 DSB 求解方式。其第一轮 DSB 迭代可恢复出与标准 score-based diffusion 紧密相关的方法视角。(NeurIPS 会议论文集)

10.2 I²SB: Image-to-Image Schrödinger Bridge

这是条件图像生成语境下最具代表性的 DSB 方法。其关键创新在于：利用一类 tractable nonlinear diffusion bridge 的解析边缘分布，将 bridge learning 化简为 simulation-free 的扩散式训练，从而高效支持图像恢复与图像到图像建模。(Proceedings of Machine Learning Research)

10.3 Simulation-Free Schrödinger Bridges via Score and Flow Matching

该工作进一步从统一视角解释了 Schrödinger bridge、score matching 与 flow matching 的关系，说明 bridge learning 不仅可与 diffusion 视角相连，也可与 flow-based training 形成更广义的统一框架。(Proceedings of Machine Learning Research)

11. 总结

扩散薛定谔桥是一类以双端分布约束 为核心的随机生成建模方法。与标准 diffusion 相比，它并未简单改变训练外壳，而是改变了底层问题设定：从"噪声---数据"的单端去噪框架，扩展为"分布 A---分布 B"的桥接框架。经典 DSB 借助 IPF 近似求解双向桥过程；I2SB 则通过解析中间态与解析监督目标，将桥学习化为可扩展的 diffusion-style supervised regression；而后续 simulation-free 工作又将 bridge、score 和 flow 进一步纳入统一理解。(NeurIPS 会议论文集)

如果把它压缩成一句最核心的话，可以写成：

DSB 的本质不是"从噪声恢复数据"，而是"在两个端点分布之间学习一条随机但受约束的演化路径"；I2SB 则是在图像到图像条件生成中，将这一桥接过程做成了解析可采样、训练可扩展的扩散式模型。 (NeurIPS 会议论文集)