扩散薛定谔桥(Diffusion Schrödinger Bridge)

扩散薛定谔桥(Diffusion Schrödinger Bridge)

1. 概述

扩散薛定谔桥(Diffusion Schrödinger Bridge, DSB)是一类在两个端点分布之间学习随机过渡动力学 的方法。其核心目标不是仅恢复终点样本,而是构造一条满足边界约束、且尽量接近某一参考扩散过程的路径分布 。在生成建模语境下,DSB 将"从简单分布到复杂分布"或"从源域到目标域"的问题表述为一个路径空间上的熵正则化传输问题 。(NeurIPS 会议论文集)

与标准扩散模型相比,DSB 的关键特征在于:其两端不必固定为"数据分布---高斯噪声分布",而可以是任意两个给定分布;因此,它天然适合无条件生成中的"先验到数据"建模,也适合条件生成中的"源域到目标域"桥接,例如图像恢复、图像翻译、跨时相生成和状态演化建模。I2SB 正是这一思想在图像到图像条件生成中的代表性实现。(NeurIPS 会议论文集)


2. 数学定义与问题形式

设有两个边缘分布:

  • 初始分布 p 0 p_0 p0
  • 终止分布 p 1 p_1 p1

并给定一个参考随机过程 R R R(通常为布朗运动或某类扩散过程)。薛定谔桥问题可表述为:在所有满足两端边界约束的路径分布中,寻找一个与参考过程最接近的路径分布 P ∗ P^* P∗:

P ∗ = arg ⁡ min ⁡ P : , P 0 = p 0 , ; P 1 = p 1 K L ( P ∣ R ) . P^*=\arg\min_{P:,P_0=p_0,;P_1=p_1}\mathrm{KL}(P|R). P∗=argP:,P0=p0,;P1=p1minKL(P∣R).

该形式表明,DSB 的本质不是学习一个静态映射 x ↦ y x\mapsto y x↦y,而是学习一个受边界分布约束的随机动力系统 。从最优传输角度看,它可视为动态熵正则化最优传输 ;当扩散噪声趋于零时,其路径与 OT 视角下的确定性传输具有紧密联系。(NeurIPS 会议论文集)


3. 与标准扩散模型的关系

3.1 相似性:训练接口层面的继承

大量 DSB 方法,尤其是 I2SB,一般在实现上沿用标准扩散模型的训练接口:

  • 随机采样时间 t t t
  • 构造中间状态 x t x_t xt
  • 输入神经网络 ( x t , t , cond ) (x_t,t,\text{cond}) (xt,t,cond)
  • 预测噪声、score 或等价修正量
  • 采用 MSE 一类回归损失。(Proceedings of Machine Learning Research)

因此,从代码结构、网络骨干和损失外形上看,DSB 常常与 diffusion-based training 高度相似。

3.2 差异性:建模对象与概率路径的变化

然而,DSB 与标准扩散模型的根本差异并不在于损失公式的表面形式,而在于建模对象概率路径

  • 标准扩散模型主要建模"数据分布 ↔ \leftrightarrow ↔ 噪声分布"的加噪---去噪过程;
  • DSB 建模的是"分布 p 0 ↔ p 1 p_0 \leftrightarrow p_1 p0↔p1"之间的桥接动力学,其中两端都可以是真实分布。(NeurIPS 会议论文集)

因此,可以说 DSB 在工程实现上常借用 diffusion 的训练框架,但其理论目标是更一般的双边分布桥接问题,而非单纯的"从噪声恢复数据"。


4. 与最优传输、Flow Matching 的关系

DSB 与最优传输(OT)之间存在清晰联系。OT 关注的是以最小代价将分布 p 0 p_0 p0 搬运至 p 1 p_1 p1 的确定性路径,而 DSB 则是在参考随机过程的约束下,寻找满足边界条件的最优随机路径,因此常被理解为带熵正则的动态 OT 。(NeurIPS 会议论文集)

与 Flow Matching 相比,DSB 原生更偏向随机动力学 / SDE 视角 ,而 Flow Matching 更偏向确定性速度场 / ODE 视角 。不过,后续工作已表明,score matching、flow matching 与 Schrödinger bridge 可以在"simulation-free stochastic dynamics learning"的统一框架下理解。[SF]²M 就是一个重要代表,它将 score matching 与 flow matching 共同解释为 Schrödinger bridge 视角下的训练目标推广。(Proceedings of Machine Learning Research)


5. 方法分类:无条件 DSB 与条件 DSB

5.1 无条件 DSB

无条件 DSB 的典型设定是:

  • 起点:简单先验分布(如高斯)
  • 终点:真实数据分布

目标是在有限时间内构造一个随机桥,使样本从先验逐步演化为数据样本。经典 DSB 工作通过近似 Iterative Proportional Fitting(IPF)来交替逼近 forward / backward dynamics,从而求解该桥。(NeurIPS 会议论文集)

5.2 条件 DSB:I2SB

I2SB 面向图像到图像任务,将两端设为:

  • 源域分布(如退化图、模糊图、灾前图)
  • 目标域分布(如清晰图、恢复图、灾后图)

I2SB 的关键贡献在于:它在一类可 tractable 的 bridge 上推导出了给定边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 时中间态边缘的解析形式 ,从而将原本复杂的 bridge training 转化为与标准扩散训练相似的、可大规模扩展的监督回归框架。(Proceedings of Machine Learning Research)


6. 模型结构设计

从神经网络实现层面看,DSB 并不依赖某种唯一的特定架构。其关键不在于"必须采用何种 backbone",而在于"如何参数化 bridge dynamics / score / drift / velocity"。

6.1 经典 DSB 的结构特征

经典 DSB 需要近似 forward 和 backward 两个方向的动力学,因此常采用两套时间相关网络,或通过不同训练阶段交替拟合同一类时间条件模型。原始工作在图像实验中采用了简化版 U-Net。(NeurIPS 会议论文集)

6.2 I2SB 的结构特征

I2SB 在工程上基本沿用标准扩散主干:

  • 主干网络:U-Net
  • 输入:中间态 X t X_t Xt 与时间 t t t
  • 条件:源端样本 X 0 X_0 X0,必要时可扩展为 mask、文本、几何先验等
  • 输出:噪声、score 或等价参数化目标。(Proceedings of Machine Learning Research)

因此,在实际应用中,I2SB 更像是bridge-aware conditional diffusion,而不是一种完全脱离 diffusion 工程范式的新骨干网络。


7. 训练机制:经典 DSB 与 I2SB 的区别

7.1 经典 DSB:基于 IPF 的交替训练

经典 DSB 的训练可理解为一个近似 IPF 过程:

  1. 固定当前 forward process;
  2. 采样 forward paths;
  3. 拟合 backward dynamics;
  4. 固定 backward process;
  5. 采样 backward paths;
  6. 再拟合 forward dynamics;
  7. 多轮外层迭代后逐步逼近桥解。(NeurIPS 会议论文集)

这种训练方式直接反映了 SB 求解的双向耦合本质,但训练流程相对复杂,数值负担也较重。

经典 DSB 训练伪代码

text 复制代码
Algorithm 1  Unconditional Diffusion Schrödinger Bridge Training

Input:
    prior distribution p_prior
    data distribution p_data
    ForwardNet, BackwardNet

Initialize model parameters

for outer_iter = 1 ... K do

    # Step A: fit backward dynamics
    for step = 1 ... N1 do
        sample z0 ~ p_prior
        simulate forward trajectory using ForwardNet:
            z0 -> z1 -> ... -> zT
        update BackwardNet so that it predicts
            how to move from zt to z_{t-1}
    end for

    # Step B: fit forward dynamics
    for step = 1 ... N2 do
        sample xT ~ p_data
        simulate backward trajectory using BackwardNet:
            xT -> x_{T-1} -> ... -> x0
        update ForwardNet so that it predicts
            how to move from xt to x_{t+1}
    end for

end for

Output:
    trained ForwardNet, BackwardNet

经典 DSB 推理伪代码

text 复制代码
Algorithm 2  Unconditional Diffusion Schrödinger Bridge Sampling

Input:
    z0 ~ p_prior
    trained ForwardNet

x <- z0
for t = 0 ... T-1 do
    pred <- ForwardNet(x, t)
    x <- bridge_forward_step(x, pred, t)
end for

return x

7.2 I2SB:解析中间态 + 监督回归

I2SB 的训练逻辑显著不同。给定边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1) 后,I2SB 推导出中间态条件边缘:

q ( X t ∣ X 0 , X 1 ) = N ( μ t ( X 0 , X 1 ) , Σ t ) . q(X_t \mid X_0, X_1)=\mathcal{N}(\mu_t(X_0,X_1), \Sigma_t). q(Xt∣X0,X1)=N(μt(X0,X1),Σt).

这意味着训练时无需先数值模拟整条 bridge path,而可以直接:

  1. 采样边界对 ( X 0 , X 1 ) (X_0,X_1) (X0,X1);
  2. 随机采样时间 t t t;
  3. 从解析中间态分布中采样 X t X_t Xt;
  4. 构造解析可得的监督目标;
  5. 用标准扩散式网络做监督回归。(Proceedings of Machine Learning Research)

这正是 I2SB 所谓的 simulation-free 训练思想。

I2SB 训练伪代码

text 复制代码
Algorithm 3  I2SB Training

Input:
    paired samples (X0, X1)
    Model(Xt, t, cond=X0)

for iter = 1 ... MaxIter do
    sample (X0, X1)
    sample t ~ Uniform(0, 1)

    # sample bridge state
    sample Xt ~ q_bridge(Xt | X0, X1, t)

    # compute analytic target
    target <- bridge_target(Xt, X0, X1, t)

    pred <- Model(Xt, t, cond=X0)
    loss <- MSE(pred, target)

    update model parameters
end for

Output:
    trained Model

I2SB 推理伪代码

text 复制代码
Algorithm 4  I2SB Sampling

Input:
    source sample X0
    trained Model

x <- X0
for t = T ... 1 do
    pred <- Model(x, t, cond=X0)
    x <- bridge_step(x, pred, t)
end for

return x

8. I2SB 中最关键的两步:中间态采样与监督目标构造

这是理解 I2SB 的核心。

8.1 第 3 步:采样中间态 X t X_t Xt

训练中常写为:

X t ∼ q bridge ( X t ∣ X 0 , X 1 , t ) . X_t \sim q_{\text{bridge}}(X_t \mid X_0, X_1, t). Xt∼qbridge(Xt∣X0,X1,t).

这一过程通常不是模型学习出来的 ,而是由 bridge 的数学形式事先规定好的。I2SB 的关键结论是:在其选取的 tractable nonlinear diffusion bridge 类中,中间态边缘可以解析写成高斯分布,因此 X t X_t Xt 可直接按公式采样。(Proceedings of Machine Learning Research)

从实现角度看,这一步通常等价于:

python 复制代码
mu_t  = weighted_mean(X0, X1, t)
var_t = bridge_variance(t)
eps   = Normal(0, I).sample_like(X0)
Xt    = mu_t + sqrt(var_t) * eps

因此:

  • 桥的形式是预先设计和推导的;
  • 具体某个中间态样本是从该分布中随机采样得到的;
  • 模型本身不负责"学习如何生成训练中间态分布"。

8.2 第 4 步:构造监督目标 target

在 I2SB 中,监督目标通常同样由解析公式给出,而不是由模型自行定义。以论文中的常见参数化为例,目标项可写为:

target = X t − X 0 σ t . \text{target}=\frac{X_t-X_0}{\sigma_t}. target=σtXt−X0.

这意味着,给定中间态 X t X_t Xt、边界端点 X 0 X_0 X0 和噪声尺度 σ t \sigma_t σt 后,监督信号可直接计算出来。模型学习的是:

( X t , t , cond ) ↦ target . (X_t,t,\text{cond}) \mapsto \text{target}. (Xt,t,cond)↦target.

而不是:

( X 0 , X 1 , t ) ↦ q ( X t ∣ X 0 , X 1 ) . (X_0,X_1,t) \mapsto q(X_t|X_0,X_1). (X0,X1,t)↦q(Xt∣X0,X1).

换言之,在 I2SB 框架中:

这两步的角色划分

预先规定 / 理论推导得到的部分:

模型学习的部分:

这也是 I2SB 能够大规模训练的重要原因:它把"桥样本构造"和"监督信号构造"解析化了,从而将训练问题化简为一个稳定的监督回归问题。(Proceedings of Machine Learning Research)


9. 噪声在 DSB 中扮演的角色

DSB 不是"没有噪声",而是"噪声不再只是唯一端点"。在标准 diffusion 中,噪声往往是一个显式端点;在 DSB 中,噪声主要用于:

  • 维持桥的随机性;
  • 构造桥上的中间态;
  • 保证生成结果具有多样性。(NeurIPS 会议论文集)

因此,对 DSB 更准确的表述是:

它不要求必须把样本一路加噪到纯高斯;它更关心如何在两端之间定义一个带噪的随机桥接过程。


10. 代表性工作与方法脉络

10.1 Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling

这是经典 DSB 工作,核心贡献在于将 SB 问题与 score-based generative modeling 联系起来,并通过近似 IPF 给出可训练的 DSB 求解方式。其第一轮 DSB 迭代可恢复出与标准 score-based diffusion 紧密相关的方法视角。(NeurIPS 会议论文集)

10.2 I²SB: Image-to-Image Schrödinger Bridge

这是条件图像生成语境下最具代表性的 DSB 方法。其关键创新在于:利用一类 tractable nonlinear diffusion bridge 的解析边缘分布,将 bridge learning 化简为 simulation-free 的扩散式训练,从而高效支持图像恢复与图像到图像建模。(Proceedings of Machine Learning Research)

10.3 Simulation-Free Schrödinger Bridges via Score and Flow Matching

该工作进一步从统一视角解释了 Schrödinger bridge、score matching 与 flow matching 的关系,说明 bridge learning 不仅可与 diffusion 视角相连,也可与 flow-based training 形成更广义的统一框架。(Proceedings of Machine Learning Research)


11. 总结

扩散薛定谔桥是一类以双端分布约束 为核心的随机生成建模方法。与标准 diffusion 相比,它并未简单改变训练外壳,而是改变了底层问题设定:从"噪声---数据"的单端去噪框架,扩展为"分布 A---分布 B"的桥接框架。经典 DSB 借助 IPF 近似求解双向桥过程;I2SB 则通过解析中间态与解析监督目标,将桥学习化为可扩展的 diffusion-style supervised regression;而后续 simulation-free 工作又将 bridge、score 和 flow 进一步纳入统一理解。(NeurIPS 会议论文集)

如果把它压缩成一句最核心的话,可以写成:

DSB 的本质不是"从噪声恢复数据",而是"在两个端点分布之间学习一条随机但受约束的演化路径";I2SB 则是在图像到图像条件生成中,将这一桥接过程做成了解析可采样、训练可扩展的扩散式模型。 (NeurIPS 会议论文集)

相关推荐
向成科技2 小时前
当“超轻量AI”遇上“最强国产芯”
人工智能·物联网·ai·芯片·国产化·硬件·主板
远见阁2 小时前
智能体是如何“思考”的:ReAct模式
人工智能·ai·ai智能体
L-影2 小时前
为什么你的数据里藏着“隐形圈子”?聊聊AI中的聚类
人工智能·ai·数据挖掘·聚类
江瀚视野2 小时前
小马智行Robotaxi营收增超1.2倍,小马的成绩单该咋看?
人工智能
Tony Bai2 小时前
Rust 看了流泪,AI 看了沉默:扒开 Go 泛型最让你抓狂的“残疾”类型推断
开发语言·人工智能·后端·golang·rust
2301_764441332 小时前
AI动态编排革命:Skill与Dify工作流终极对决
人工智能·机器学习
ai大模型中转api测评2 小时前
从并发噩梦到弹性自由:2026年开发者如何构建高可用的API分发层?
人工智能·gpt·gemini
程序员Shawn2 小时前
【机器学习 | 第五篇】- 决策树
人工智能·决策树·机器学习
LSssT.2 小时前
《Python+AI Agent 30 天实战计划》专栏概述
人工智能