视觉生成底层技术发展脉络与研究图谱

摘要

近年来，视觉生成模型研究重心已从GAN/VAE等对抗／编码框架，转向以扩散模型和流／输运为基础的生成方法。扩散/score-based方法将生成视为逐步去噪的过程，可通过随机微分方程（SDE）从简单噪声分布重构复杂图像分布【3†L55-L64】，已经在无条件与条件图像生成上取得破纪录的效果；与此同时，基于流匹配（Flow Matching）与Schrödinger桥（Diffusion Schrödinger Bridge）的新范式，将生成看作最优输运或确定性ODE流动问题【9†L53-L62】【5†L61-L69】，进一步拓展了生成模型的能力。尤其是为加速生成过程，出现了一系列少步或一步生成模型，如一致性模型（Consistency Models）【15†L53-L62】、平均流（MeanFlow）【11†L53-L61】和Shortcut模型【13†L59-L68】，它们通过条件建模或蒸馏技术显著缩减采样步骤。本文系统梳理了这些技术主线：扩散/score模型 、流匹配/Rectified Flow/MeanFlow 、Schrödinger Bridge/输运生成 、一步/少步建模 、像素空间与潜空间生成 、条件图像生成 和采样加速等方向。我们对每个方向给出概念定义、核心思想，并解读代表性工作。最后，通过比较这些分支的联系与区别，指出未来趋势与研究机会，并为当前视觉生成研究提出具体建议和精读论文清单。

1. 研究背景

自2010年代中期以来，生成模型经历了多次范式转变：最初的GAN/VAE等对抗或概率编码方法在生成质量和多样性上取得突破，但也存在模式崩溃与训练不稳等问题。2020年以来，扩散模型（Diffusion Models）和score-based生成模型迅速崛起。该类方法通过逐步向数据分布添加噪声 并学习逆过程的score函数 （数据对数密度梯度），可以在高维空间内逐点"去噪"还原样本【3†L55-L64】。扩散模型训练简单稳定，可自然支持条件生成，在无条件图像生成中创造了新高；但其缺点是生成过程需多步迭代（数百到数千步），导致速度缓慢。为此，研究者开始关注新的"底层生成机制"：一方面，将生成视作确定性流/最优输运过程 （如流匹配或Schrödinger桥），可以直接学习从噪声到数据的流场，潜在实现更快采样；另一方面，探索一步或少步生成模型 ，通过模型蒸馏或特别的网络设计，在一步甚至一步内完成生成。此外，以往扩散多在像素空间中建模，最新趋势转向潜空间（latent）生成 以降低计算，同时亦有回归直接像素空间生成 高保真图像。条件生成（如图像-图像翻译、风格迁移）也从传统的判别建模转向分布对齐（bridging）的输运视角。总体而言，现代视觉生成正由原本关注生成质量和多样性，逐渐向生成效率、可控性和任务定制方向演进。

2. 主要技术主线

扩散/Score-based 生成模型：通过定义前向噪声扩散（如逐步加高斯噪声）和逆过程SDE/ODE，学习score函数进行逐步去噪。代表工作包括DDPM系列和Song等的Score-SDE框架【3†L55-L64】。扩散模型简单稳定，可生成高质量图像，也支持条件推理（如文图条件、图像修复）。其局限在于采样耗时，需使用大量迭代和计算。
Flow Matching / Rectified Flow / MeanFlow ：将生成视为确定性流场（ODE）中的输运过程。Flow Matching【9†L53-L62】通过回归任意概率路径上的速度场来训练连续正规化流（CNF），不依赖模拟过程；Rectified Flow【7†L53-L61】则以直线耦合 （点对点的线性插值路径）为概率路径学习流场，使得生成近似直线流，可在极少步（甚至一步）下完成高质量采样；最新的MeanFlow【11†L53-L61】引入平均速度场 概念，进一步优化单步流。此类方法本质上偏确定性流/输运视角【9†L53-L62】，不需对抗训练，采样时可以使用ODE求解器，高效且稳定。
Schrödinger桥 / Entropic OT 生成 ：Schrödinger桥问题是在路径空间上加熵的最优输运，可看作两分布间的熵正则化输运。Diffusion Schrödinger Bridge（DSB）模型【5†L61-L69】将其用于生成建模，通过迭代比例拟合法（IPF）逐步逼近源分布和目标分布。与传统扩散相比，SB可在有限时间内"拉近"噪声分布和数据分布【5†L61-L69】，更适合映射条件、跨域、图像-图像等任务。SB框架还衍生出图像修复等应用（如Image-to-Image SB【20†L55-L63】）和对潜空间Diffusion的扩展（如Latent SB【22†L58-L66】）。
一步/少步生成建模 ：该方向致力于大幅减少采样步骤，甚至实现一次前向传递直接生成图像。代表性方法有Consistency Models 【15†L53-L62】，通过一致性约束让模型直接将噪声映射为数据；Shortcut Models 【13†L59-L68】，在输入中加入希望"跳跃"的步长参数，训练时学会跨越多个去噪步骤；MeanFlow【11†L53-L61】，通过优化平均速度场实现一步生成。这些模型通常需要复杂的训练技术（如蒸馏、教师辅助），但可在推理时节省大量计算。
像素空间生成 / 潜空间生成 ：许多扩散/flow模型直接在像素空间建模（如原始DDPM【3†L55-L64】），能够生成极高保真的图像；但是训练和采样成本高。为提高效率，引入了潜空间扩散 （Latent Diffusion Models, LDM）【21†L59-L68】------先用自动编码器将图像映射到低维潜空间，再在该空间做扩散/生成，有效降低计算需求；但潜空间可能失去细节。最新研究也在探索无需潜空间的高效生成方法，同时追求像素级别质量和加速。
条件生成 / 图像到图像生成 ：条件生成是指生成与输入图像或其他条件相关联的输出，常见于图像修复、风格迁移等。传统方法利用条件GAN或条件扩散，但新的视角是分布桥接：通过最优输运或桥接方法将源分布映射到目标分布。典型例子有Image-to-Image Schrödinger Bridge（I²SB）【20†L55-L63】和Latent SB【22†L58-L66】，它们将损坏图像或潜在表征作为起点，以跨越分布差异的方式直接生成修复或风格化图像。
采样加速与压缩 ：为了克服扩散等模型采样缓慢的问题，出现了一系列加速技术。包括扩散蒸馏 （用小步骤模拟大步骤）、Consistency一体化采样 （如前述Consistency Models【15†L53-L62】）、Reflow方法等。这些技术往往通过多阶段训练或特殊设计，让模型在极少步（甚至一步）下仍能逼近原始多步扩散的效果。

3. 关键方向深度分析

3.1 扩散/Score-based 生成模型

定义与动机： 扩散模型通过逐渐向真实数据添加噪声 （前向扩散过程），并学习逆过程去噪的方法来建模数据分布【3†L55-L64】。其目标是在每一步都逼近数据分布的score（对数密度梯度），从而能从纯噪声逐步恢复样本。相比早期的GAN，扩散模型训练过程没有对抗不稳定问题，且易于整合条件信息（如文本、图片掩码等）。
核心思想与机制： 典型框架为DDPM（Denoising Diffusion Probabilistic Models），以及由Song等人提出的Score-SDE 模型【3†L55-L64】。前者固定时间调度添加Gaussian噪声，学会在不同噪声水平下还原噪声；后者将噪声过程视为连续SDE，学习在各个时间点的score函数，并使用数值SDE/ODE求解器生成样本【3†L55-L64】。这两者本质上等价，通过随机或确定性逆过程 实现采样。扩散模型已实现从低分辨率（CIFAR-10）到高分辨率（1024x1024）图像的生成【3†L71-L77】。
代表论文：

Score-Based Generative Modeling through Stochastic Differential Equations （Song et al., 2021）【3†L55-L64】：系统化了扩散和score模型框架，提出使用时间不变的SDE与逆SDE联合训练score网络，可用ODE求解器直接采样。该论文首次展示了可生成1024x1024高质图像，并提出预测-校正（Predictor-Corrector）采样方案。推进点在于统一了score-based和DDPM；局限在于计算量仍大（需多步采样）。此工作奠定了现代扩散模型理论基础。
(选二) 其他著名工作包括Improved DDPM （Nichol & Dhariwal, 2021），通过改进目标函数和噪声调度，提升FID和似然；以及Consistency Models（Song et al., 2023）【15†L53-L62】（见下一节，已加入一致性视角）。

3.2 Flow Matching、Rectified Flow、MeanFlow

定义与动机： 此方向不通过随机扩散，而将生成视为确定性流场运输 问题。Flow Matching 定义了一个基于连续正规化流（CNF）的框架，通过回归预定路径上的速度场来训练生成模型【9†L53-L62】，不再需要模拟扩散过程。Rectified Flow 则使用最简单的概率路径------两个分布样本之间的直线路径------来学习流场【7†L53-L61】；MeanFlow 引入平均速度 观点，优化一步生成的效果【11†L53-L61】。这些方法追求更直接的样本转换过程，可用神经ODE进行采样。
核心思想与机制：

Flow Matching【9†L53-L62】：给定噪声分布和数据分布，设计一系列条件分布曲线（例如线性插值或其他），网络被训练以拟合各点的速度向量，使得流场沿这些路径正确运输质量。这种"无模拟"训练避免了噪声序列的采样开销，可选择任意平滑路径，包含OT路径在内。论文发现，使用OT插值路径比标准扩散路径更高效，训练与采样速度均优于传统扩散【9†L59-L68】。
Rectified Flow 【7†L53-L61】：专门使用直线耦合（每对数据-噪声样本间的线性连线）作为学习路径。训练目标是让神经ODE沿直线精确生成目标分布；这样模拟过程可实现"易精确的粗步长"【7†L61-L69】，即使只有1步（一步EDM）也能取得接近传统多步扩散的质量【7†L69-L74】。该方法简洁高效，非常适合一阶（single-step）采样。
MeanFlow 【11†L53-L61】：针对单步流框架，引入"平均速度"概念，链接瞬时速度（Flow Matching）与平均速度（实际生成时运动距离/时间）。作者推导了两者之间的等价关系，设计了自洽损失无需蒸馏即可训练单步生成网络【11†L53-L61】。MeanFlow在ImageNet 256×256上仅1步采样达到FID 3.43【11†L58-L61】，显著缩小了单步与多步模型之间的差距。
代表论文：
Flow Matching for Generative Modeling（Lipman et al., 2022）【9†L53-L62】：提出Flow Matching范式，支持通用概率路径，并演示了使用OT插值的优势【9†L59-L68】。其贡献在于提供了一种可扩展的CNF训练方法，并在ImageNet上取得了比扩散更好的样本质量和速度。局限是对路径设计和网络容量有要求。
Flow Straight and Fast: Rectified Flow （Liu et al., 2022）【7†L53-L61】：通过直线路径学习流场，实现了一步生成的高效样本生成【7†L69-L74】。贡献是大大简化了采样步骤（模型可以仅用一次简单Euler步长），局限在路径选择较简单，可能对复杂分布保真度略低于多步方法。
Mean Flows for One-step Generative Modeling（Geng et al., 2025）【11†L53-L61】：提出MeanFlow，一种无需额外预训练即可进行单步生成的框架，达到极低的1步Fid分数。推进了单步生成技术，减小了单步与多步间的性能差距。主要局限是目前仍需针对大规模图像训练，且对模型表达能力有依赖。

3.3 Schrödinger桥 / 输运生成

定义与动机： Schrödinger桥（SB）问题是熵正则化的最优输运在轨迹空间上的推广，用于在两个分布间寻找最"经济"的随机过程【5†L61-L69】。在生成模型中，将噪声分布和数据分布视为输运端点，SB模型可以在有限时间内实现由噪声到数据的最优随机映射 ，而不是依赖长时间的扩散【5†L61-L69】。这对于需要将一个已有样本转变为另一目标样本（如图像修复、风格转换）特别有用。
核心思想与机制： 以Diffusion Schrödinger Bridge （DSB）【5†L61-L69】为例：DSB通过迭代比例拟合 （Iterative Proportional Fitting）构造前向和后向的SDE过程，每轮迭代逼近端点分布。第一迭代即等价于传统扩散模型的训练方法，而后续迭代则逐步优化使噪声端和数据端的分布差距最小【5†L61-L69】。SB本质上引入了一个"有限时间最优输运"视角，理论上可提供更直接的映射，比一般扩散要求更短的时间尺度。
代表论文：

Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling（De Bortoli et al., 2021）【5†L61-L69】：提出DSB框架，将SB问题应用于生成模型【5†L61-L69】。该论文分析了DSB与传统扩散的关系，证明DSB能在有限时间内收敛到目标分布，首次将输运理论引入扩散模型中。局限在于迭代计算成本高，收敛速度依赖许多因素。
Implicit Image-to-Image Schrödinger Bridge (I²SB)（Wang et al., 2024）【20†L55-L63】：将SB应用于图像修复任务，通过在每一步中隐式保持原始图像信息，加速修复采样【20†L61-L70】。贡献是在保持同等质量的前提下显著减少生成步骤。局限性是主要在图像修复领域，还需评估对其他条件任务的适用性。
Latent Schrödinger Bridge（Kim et al., 2024）【22†L58-L66】：在潜空间中实现SB，结合Stable Diffusion的预训练网络进行无监督图像翻译【22†L58-L66】。展示了SB在保持色彩和结构一致性同时仅用极少计算的能力。这些工作表明，SB与潜空间模型结合是未来生成任务（如风格迁移）的一大趋势。

3.4 一步/少步生成建模

定义与动机： 为克服传统扩散冗长的采样过程，一步/少步生成方法旨在用极少或仅一步推理得到高质量样本。这在实时生成和资源受限的场合尤为重要。
核心思想与机制： 这类方法通常通过模型蒸馏 或特殊设计来逼近多步过程的效果。

Consistency Models 【15†L53-L62】：通过训练模型满足consistency条件，使之直接将噪声映射到图像。该模型支持直接一步生成，也允许多步细化，从而在不同计算预算间调整质量【15†L53-L62】。
Shortcut Models 【13†L59-L68】：在扩散模型基础上，令网络输入包括期望的跨步大小，训练时让模型学会"跳过"中间步骤【13†L61-L68】。这样可在一张模型和一次训练下输出1步或多步结果，提供灵活高效的采样。
MeanFlow 【11†L53-L61】：如前所述，通过平均速度视角直接优化一步生成功能，无需额外蒸馏过程。
代表论文：
Consistency Models（Song et al., 2023）【15†L53-L62】：构建了一种新的直接映射模型，支持零次方程（一阶前向）生成，并可通过多步取舍计算和质量的平衡。论文展示了其在CIFAR-10、ImageNet-64等数据集的一步新状态。其中核心贡献在于提出一致性约束和无缝多步扩展，局限在于依赖蒸馏自已有的扩散模型来获得高质量。
One Step Diffusion via Shortcut Models（Frans et al., 2024）【13†L59-L68】：提出Shortcut模型，只用一个网络和训练阶段即可在不同采样预算下生成，简化了以往需要多阶段训练的复杂方法。该方法在各种步数预算下都优于现有技术【13†L59-L68】。主要贡献是将复杂的蒸馏过程简化为单模型，并允许推理时自由选择步数；局限是需要在训练时预设可变化的步长参数。

3.5 像素空间生成 vs 潜空间生成

定义与动机： 生成模型可直接在像素空间 进行（如原始DDPM【3†L55-L64】），也可先用自动编码器将图像压缩到潜在表示 再生成。像素级生成保证最高的细节保真度，但计算开销巨大；潜空间生成则用较低维度特征学习，大幅加速训练和采样【21†L59-L68】，适合高分辨率生成。
核心思想与机制：

像素空间扩散/流模型：直接对原始像素做噪声和去噪，通常需要更大的网络和更多计算。优势是能够捕捉所有细节和纹理变化。
潜空间扩散模型（Latent Diffusion, LDM） ：在高质量自动编码器的潜空间（经过预训练）上做扩散【21†L59-L68】。Rombach等人指出，这样可在保持视觉质量的同时"达到计算复杂度与细节保存的近最优点"【21†L63-L72】。通过在潜空间融合跨注意力等技术，还可灵活实现文本、掩码等条件输入。
代表论文：
High-Resolution Image Synthesis with Latent Diffusion Models（Rombach et al., 2022）【21†L59-L68】：提出了潜空间扩散框架，成功在有限资源下实现高分辨率合成【21†L59-L68】。贡献在于显著降低了硬件需求，同时保持了与像素空间模型接近的质量。该方法已被应用于多个实际系统。局限在于质量高度依赖自动编码器的表示能力，有时可能出现潜空间解码伪影。
(选一) 也可提及原始像素扩散 或浮点流模型（如Song等【3†L55-L64】中的1024x1024生成）作为对比，强调潜空间模型的优势与局限。

3.6 条件生成 / 图像-图像生成

定义与动机： 条件生成关注在给定输入（如标签、风格图片、草图、破损图像等）时生成目标图像。常见任务包括图像修复、颜色化、风格转换等。在视觉领域，这类任务往往需要在保持结构信息的同时改变部分内容，因此对生成流程的可控性要求更高。
核心思想与机制： 现代条件生成多基于扩散模型，通过在训练或采样时引入条件引导 （如条件扩散、Guidance）来产生目标图像。例如，条件扩散可在score网络中输入条件信息，或对噪声梯度进行引导。然而，新趋势是分布桥接 ：将条件输入视作源分布下的样本，目标分布为想要生成的样本，使用SB或OT思路桥接它们。
代表论文：

Implicit I²SB for Image Restoration（Wang et al., 2024）【20†L55-L63】：前述在图像修复中应用SB，显示了从"破损图像"开始，通过桥接生成清晰图像的可能性【20†L55-L63】。强调了在每步引入条件信息以提速。
Latent Schrödinger Bridge（Kim et al., 2024）【22†L58-L66】：在未配对的图像翻译任务中，将Stable Diffusion与SB结合，仅用少量计算完成风格转换【22†L58-L66】。这说明使用潜空间和SB思路进行条件生成是一个有前景的方向。
另外，可提及如Denosing Diffusion Implicit Models (DDIM)或Conditional Score-based Models等经典工作，这里不详细介绍。

3.7 采样加速与蒸馏

定义与动机： 扩散和CNF等模型生成高质量图像的代价是多步迭代采样 。为了使其在实际应用中更快，需要各种加速策略。
核心思想与机制：

扩散蒸馏与Skip采样：例如通过将多步过程蒸馏到更少步的过程，使其在精度损失可控下减少迭代（如DDIM、Progressive Distillation等）。
Consistency Models【15†L53-L62】：除了作为独立模型，本身也是一种蒸馏思想的实现，可视为对已有扩散模型的一步蒸馏。
Reflow/Shortcut Models 【13†L59-L68】：通过输入步长（reflow）或专门网络结构，使单模型能适配多步预算，也是种加速手段。
这些方法的共同点是计算-质量权衡：以较小的精度损失换取显著的生成速度提高。

4. 分支间联系与区别

Diffusion vs Flow Matching： 两者都能看作从噪声到数据的分布映射，但实现机制不同。扩散模型使用随机过程（SDE）和score网络，采样时需迭代多步；Flow Matching使用确定性ODE流场，训练时回归速度，不需序列采样【9†L53-L62】。Lipman等指出，Flow Matching框架包含了扩散路径作为特例【9†L53-L62】，但也可选择更高效的OT路径。此外，扩散模型天然支持噪声与样本的不确定性表征，Flow Matching侧重确定映射。流模型在采样效率上具有优势，但在大尺度复杂分布拟合上可能需要强大网络。
Flow Matching vs Rectified Flow： Rectified Flow其实是Flow Matching的特例：它固定使用"直线插值"作为插值路径【7†L53-L61】。因此，Rectified在结构上更简单，训练目标更明确------使生成沿直线"校正"到数据。因此Rectified训练收敛更快、可一阶模拟；而一般Flow Matching可采用更灵活的耦合以优化其它成本（如OT代价）【9†L59-L68】。
Schrödinger Bridge vs Optimal Transport： OT是无噪声的最优耦合问题，SB则在路径空间加入了熵正则【5†L61-L69】。因此SB在极端情况（熵权重为0）退化为经典OT，熵作用使问题更稳定可解。SB框架生成的是随机过程（SDE） ，既包含OT的"最短路径"概念，也包含随机性；普通OT通常只提供静态的一步映射。SB可以看作连续时间的Sinkhorn算法【5†L61-L69】。简言之，OT关注最优成本，SB在此基础上考虑了不确定性。
潜空间 vs 像素空间： 像素空间模型直接生成图像，保真度最高；潜空间模型生成的是经过预训练编码器压缩后的特征，计算效率高、可扩展到更大分辨率【21†L59-L68】。潜模型易于加入自注意力、跨模态条件等，而像素模型在表现最细节上稍优。实践中常取折中：在潜空间生成后再解码为像素。
多步生成 vs 单步生成： 多步（如DDPM）生成灵活、质量高，但速度慢；单步（如Consistency、MeanFlow）生成极快，却往往依赖复杂训练或降低质量。单步模型的基本思路是将多步映射压缩到一步，典型手段是蒸馏：例如Consistency模型是对扩散的蒸馏【15†L53-L62】。因此它们共享目标（学到相同映射），但单步方法在计算上更高效。
Score-based vs Velocity-field： Score-based模型学习的是噪声数据分布的梯度（score），采样通过反SDE/ODE；Velocity-field模型学习的则是样本沿时间的速度场（flow vector）。在数学上，扩散的概率流ODE（Probability Flow ODE）就揭示了二者的联系：ODE的速度场等于score乘以噪声标准差（见Song等【3†L55-L64】）。因此本质上两者可视为同一框架的不同表达：score基于梯度，velocity基于流向，两种视角各有侧重。

5. 方法脉络总结与比较

下面表格汇总了各类方法的主要特性：

方法类别	强调概率建模	强调输运/流视角	采样效率	像素级生成保真	条件/桥接能力
扩散/Score-based	✓（随机SDE）		中（多步）	✓✓（高质量）	✓（自然支持）
Flow Matching		✓（确定ODE）	✓（单流场）	✓（高质量）	中（可扩展）
Rectified Flow / MeanFlow		✓（线性耦合）	✓✓（少步）	中（稍逊）	低
Schrödinger Bridge	✓（熵正则）	✓（最优输运）	中（迭代）	✓（高保真）	✓✓（强）
像素空间生成	✓（详尽概率）		低（慢）	✓✓✓（最优）	中
潜空间生成	✓（简化版本）		✓✓（快）	✓（优）	✓（可结合）
一致性/蒸馏	✓（基于扩散）		✓✓✓（极快）	中（目标逼近）	依具体方法
条件图像生成	✓（条件score）	✓（桥接思想）	-	可变	✓✓（重点）
采样加速	-		✓✓✓（优化）	-	-

说明： 表格中"✓"表示该方法对相应属性的强调程度（"✓✓✓"代表很强），如扩散模型强调概率建模和高保真，但采样效率较低；Flow Matching强调输运视角和高质量生成；Schrödinger桥强调输运和条件桥接（用于分布对齐）等。

6. 前沿趋势与研究机会

从多步到少步/一步生成：一致性模型、MeanFlow、Shortcut等证明通过模型蒸馏或特殊设计可以大幅减少采样步骤。未来工作可能进一步缩小一步与多步质量差距，甚至探究零推理成本的新范式。
从潜空间到像素空间：虽然潜空间扩散因效率高而流行，但对于需要极高细节的任务（如医学成像、卫星遥感），直接在像素空间高效生成仍是挑战。设计新的像素级网络架构或更好的潜空间解析技术是关键。
从无条件到条件/桥接生成 ：越来越多工作关注将生成模型应用于图像翻译、跨域转换等场景，如利用Schrödinger桥和最优输运理论，这为像灾害变化场景建模等带来潜力。研究如何更稳定地在复杂条件下应用这些方法，是热点。
生成与理解协同：集成生成与下游视觉任务（如分割、识别）的联合模型可能成为趋势。比如通过生成的桥接过程增强数据理解、或用条件分布帮助模型学习潜在物理过程。
面向专业场景的生成 ：从通用自然图像生成向专用领域（如遥感、医学）迁移，需要针对领域特性的模型调整，例如引入物理约束、处理稀疏数据等。这些领域对高保真度和鲁棒性要求更高，可能促使底层方法进一步演化。

7. 对当前研究的建议

结合以上分析，对您的视觉生成研究提出以下建议：

优先关注Flow Matching与Rectified Flow路线 。这两者代表了生成模型中输运视角的新主线，且天然支持少步生成。它们对图像到图像生成任务也有潜力，因为可灵活选择路径（包括OT插值）。
探索Schrödinger桥和OT相关方法。如果您的研究涉及图像之间的复杂转换（如跨时相或跨域生成），SB提供了理论优雅的分布桥接框架，可直接加速生成并保持条件一致性。尤其可尝试将SB方法与现有扩散框架结合。
结合领域需求选择像素/潜空间 。若重点在高分辨率高保真（如地震灾害场景），则倾向于像素级扩散或流模型；若关注生成效率和灵活性，可考虑潜空间扩散或在潜空间中应用SB、条件生成方法。
重点跟踪一步/少步技术。Consistency、MeanFlow、Shortcut等新模型能够在很小步数下生成，值得学习其训练策略。可考虑使用蒸馏或变化步长输入，使您的模型在需要实时应用场景时保持高性能。
综合利用条件建模与生成加速。对于遥感变化检测、受灾图像生成等任务，可探索将条件扩散（或SB）与加速采样技术结合，如使用辅助网络提供先验，或在空间/频域上做流水线优化，尽可能减少推理时间。

8. 推荐精读论文清单

Yang Song et al., 2021 -- Score-Based Generative Modeling through Stochastic Differential Equations【3†L55-L64】。 详尽介绍了扩散/score-based生成模型的理论与实现，是现代扩散建模的奠基之作。阅读此文有助于理解扩散模型的数学框架和最优采样算法。
Yaron Lipman et al., 2022 -- Flow Matching for Generative Modeling【9†L53-L62】。 首次提出Flow Matching范式，展示了如何训练连续正规化流（CNF）进行高质量图像生成。此文重点在于输运思路和对生成路径的灵活选择，对流式模型研究十分关键。
Xingchao Liu et al., 2022 -- Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow【7†L53-L61】。 提出Rectified Flow，通过直线耦合路径实现几乎一步生成的效果，演示了极端加速下的高保真生成技术。阅读此文可了解少步生成的核心思路。
Zhengyang Geng et al., 2025 -- Mean Flows for One-step Generative Modeling【11†L53-L61】。 引入平均速度场概念，进一步推进了单步生成的性能，达到了新的State-of-the-Art。适合关注一步建模与流方法的研究者阅读。
Yang Song et al., 2023 -- Consistency Models【15†L53-L62】。 提出了一致性模型，支持一/多步灵活生成和强大的数据编辑能力。该文展示了一步生成对比传统蒸馏的优势，是采样加速方向的重要参考。
Kevin Frans et al., 2024 -- One Step Diffusion via Shortcut Models【13†L59-L68】。 提出了Shortcut模型，可在不同步数预算下使用同一模型生成，简化了蒸馏多阶段训练流程。对于需要在推理时可变步数的应用场景，值得深入研究。
Valentin De Bortoli et al., 2021 -- Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling【5†L61-L69】。 将Schrödinger桥理论应用于生成模型，阐述了如何在有限时间内构造最优随机输运过程。对理解扩散与输运结合的思想非常有帮助。
Yuang Wang et al., 2024 -- Implicit Image-to-Image Schrödinger Bridge for Image Restoration【20†L55-L63】。 将SB应用于图像修复，介绍了如何在每步保留输入图像信息以加速修复生成的策略。此文是条件生成和SB结合的实例。
Jeongsol Kim et al., 2024 -- Latent Schrödinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation【22†L58-L66】。 在潜空间中使用Schrödinger桥进行无监督的图像翻译，通过预训练Stable Diffusion网络实现快速转换。这篇文章展示了潜空间生成、SB与条件任务的前沿应用。
Robin Rombach et al., 2022 -- High-Resolution Image Synthesis with Latent Diffusion Models【21†L59-L68】。 引入潜空间扩散模型，实现了效率与质量的最佳平衡。阅读它有助于理解潜空间建模的优势及在条件生成（跨模态扩展）方面的应用。
Nichol & Dhariwal, 2021 -- Improved Denoising Diffusion Probabilistic Models（ICML 2021）。虽然不是连结打开的引用，但这篇论文通过改进扩散目标函数和噪声调度，显著提升了扩散模型生成质量和对数似然度，是扩散模型实践中的里程碑。
Additional suggestions: 其余可关注如Flow Matching GAN （Yoon et al. 2023）、Entropic OT in Generative Models等最新工作，以及领域相关的综述文章。这些都对丰富视角、构建完整知识图谱大有裨益。