视觉生成底层技术发展脉络与研究图谱
摘要
近年来,视觉生成模型研究重心已从GAN/VAE等对抗/编码框架,转向以扩散模型和流/输运为基础的生成方法。扩散/score-based方法将生成视为逐步去噪的过程,可通过随机微分方程(SDE)从简单噪声分布重构复杂图像分布【3†L55-L64】,已经在无条件与条件图像生成上取得破纪录的效果;与此同时,基于流匹配(Flow Matching)与Schrödinger桥(Diffusion Schrödinger Bridge)的新范式,将生成看作最优输运或确定性ODE流动问题【9†L53-L62】【5†L61-L69】,进一步拓展了生成模型的能力。尤其是为加速生成过程,出现了一系列少步或一步生成模型,如一致性模型(Consistency Models)【15†L53-L62】、平均流(MeanFlow)【11†L53-L61】和Shortcut模型【13†L59-L68】,它们通过条件建模或蒸馏技术显著缩减采样步骤。本文系统梳理了这些技术主线:扩散/score模型 、流匹配/Rectified Flow/MeanFlow 、Schrödinger Bridge/输运生成 、一步/少步建模 、像素空间与潜空间生成 、条件图像生成 和采样加速等方向。我们对每个方向给出概念定义、核心思想,并解读代表性工作。最后,通过比较这些分支的联系与区别,指出未来趋势与研究机会,并为当前视觉生成研究提出具体建议和精读论文清单。
1. 研究背景
自2010年代中期以来,生成模型经历了多次范式转变:最初的GAN/VAE等对抗或概率编码方法在生成质量和多样性上取得突破,但也存在模式崩溃与训练不稳等问题。2020年以来,扩散模型(Diffusion Models)和score-based生成模型迅速崛起。该类方法通过逐步向数据分布添加噪声 并学习逆过程的score函数 (数据对数密度梯度),可以在高维空间内逐点"去噪"还原样本【3†L55-L64】。扩散模型训练简单稳定,可自然支持条件生成,在无条件图像生成中创造了新高;但其缺点是生成过程需多步迭代(数百到数千步),导致速度缓慢。为此,研究者开始关注新的"底层生成机制":一方面,将生成视作确定性流/最优输运过程 (如流匹配或Schrödinger桥),可以直接学习从噪声到数据的流场,潜在实现更快采样;另一方面,探索一步或少步生成模型 ,通过模型蒸馏或特别的网络设计,在一步甚至一步内完成生成。此外,以往扩散多在像素空间中建模,最新趋势转向潜空间(latent)生成 以降低计算,同时亦有回归直接像素空间生成 高保真图像。条件生成(如图像-图像翻译、风格迁移)也从传统的判别建模转向分布对齐(bridging)的输运视角。总体而言,现代视觉生成正由原本关注生成质量和多样性,逐渐向生成效率、可控性和任务定制方向演进。
2. 主要技术主线
-
扩散/Score-based 生成模型:通过定义前向噪声扩散(如逐步加高斯噪声)和逆过程SDE/ODE,学习score函数进行逐步去噪。代表工作包括DDPM系列和Song等的Score-SDE框架【3†L55-L64】。扩散模型简单稳定,可生成高质量图像,也支持条件推理(如文图条件、图像修复)。其局限在于采样耗时,需使用大量迭代和计算。
-
Flow Matching / Rectified Flow / MeanFlow :将生成视为确定性流场(ODE)中的输运过程。Flow Matching【9†L53-L62】通过回归任意概率路径上的速度场来训练连续正规化流(CNF),不依赖模拟过程;Rectified Flow【7†L53-L61】则以直线耦合 (点对点的线性插值路径)为概率路径学习流场,使得生成近似直线流,可在极少步(甚至一步)下完成高质量采样;最新的MeanFlow【11†L53-L61】引入平均速度场 概念,进一步优化单步流。此类方法本质上偏确定性流/输运视角【9†L53-L62】,不需对抗训练,采样时可以使用ODE求解器,高效且稳定。
-
Schrödinger桥 / Entropic OT 生成 :Schrödinger桥问题是在路径空间上加熵的最优输运,可看作两分布间的熵正则化输运。Diffusion Schrödinger Bridge(DSB)模型【5†L61-L69】将其用于生成建模,通过迭代比例拟合法(IPF)逐步逼近源分布和目标分布。与传统扩散相比,SB可在有限时间内"拉近"噪声分布和数据分布【5†L61-L69】,更适合映射条件、跨域、图像-图像等任务。SB框架还衍生出图像修复等应用(如Image-to-Image SB【20†L55-L63】)和对潜空间Diffusion的扩展(如Latent SB【22†L58-L66】)。
-
一步/少步生成建模 :该方向致力于大幅减少采样步骤,甚至实现一次前向传递直接生成图像。代表性方法有Consistency Models 【15†L53-L62】,通过一致性约束让模型直接将噪声映射为数据;Shortcut Models 【13†L59-L68】,在输入中加入希望"跳跃"的步长参数,训练时学会跨越多个去噪步骤;MeanFlow【11†L53-L61】,通过优化平均速度场实现一步生成。这些模型通常需要复杂的训练技术(如蒸馏、教师辅助),但可在推理时节省大量计算。
-
像素空间生成 / 潜空间生成 :许多扩散/flow模型直接在像素空间建模(如原始DDPM【3†L55-L64】),能够生成极高保真的图像;但是训练和采样成本高。为提高效率,引入了潜空间扩散 (Latent Diffusion Models, LDM)【21†L59-L68】------先用自动编码器将图像映射到低维潜空间,再在该空间做扩散/生成,有效降低计算需求;但潜空间可能失去细节。最新研究也在探索无需潜空间的高效生成方法,同时追求像素级别质量和加速。
-
条件生成 / 图像到图像生成 :条件生成是指生成与输入图像或其他条件相关联的输出,常见于图像修复、风格迁移等。传统方法利用条件GAN或条件扩散,但新的视角是分布桥接:通过最优输运或桥接方法将源分布映射到目标分布。典型例子有Image-to-Image Schrödinger Bridge(I²SB)【20†L55-L63】和Latent SB【22†L58-L66】,它们将损坏图像或潜在表征作为起点,以跨越分布差异的方式直接生成修复或风格化图像。
-
采样加速与压缩 :为了克服扩散等模型采样缓慢的问题,出现了一系列加速技术。包括扩散蒸馏 (用小步骤模拟大步骤)、Consistency一体化采样 (如前述Consistency Models【15†L53-L62】)、Reflow方法等。这些技术往往通过多阶段训练或特殊设计,让模型在极少步(甚至一步)下仍能逼近原始多步扩散的效果。
3. 关键方向深度分析
3.1 扩散/Score-based 生成模型
定义与动机: 扩散模型通过逐渐向真实数据添加噪声 (前向扩散过程),并学习逆过程去噪的方法来建模数据分布【3†L55-L64】。其目标是在每一步都逼近数据分布的score(对数密度梯度),从而能从纯噪声逐步恢复样本。相比早期的GAN,扩散模型训练过程没有对抗不稳定问题,且易于整合条件信息(如文本、图片掩码等)。
核心思想与机制: 典型框架为DDPM(Denoising Diffusion Probabilistic Models),以及由Song等人提出的Score-SDE 模型【3†L55-L64】。前者固定时间调度添加Gaussian噪声,学会在不同噪声水平下还原噪声;后者将噪声过程视为连续SDE,学习在各个时间点的score函数,并使用数值SDE/ODE求解器生成样本【3†L55-L64】。这两者本质上等价,通过随机或确定性逆过程 实现采样。扩散模型已实现从低分辨率(CIFAR-10)到高分辨率(1024x1024)图像的生成【3†L71-L77】。
代表论文:
- Score-Based Generative Modeling through Stochastic Differential Equations (Song et al., 2021)【3†L55-L64】:系统化了扩散和score模型框架,提出使用时间不变的SDE与逆SDE联合训练score网络,可用ODE求解器直接采样。该论文首次展示了可生成1024x1024高质图像,并提出预测-校正(Predictor-Corrector)采样方案。推进点在于统一了score-based和DDPM;局限在于计算量仍大(需多步采样)。此工作奠定了现代扩散模型理论基础。
- (选二) 其他著名工作包括Improved DDPM (Nichol & Dhariwal, 2021),通过改进目标函数和噪声调度,提升FID和似然;以及Consistency Models(Song et al., 2023)【15†L53-L62】(见下一节,已加入一致性视角)。
3.2 Flow Matching、Rectified Flow、MeanFlow
定义与动机: 此方向不通过随机扩散,而将生成视为确定性流场运输 问题。Flow Matching 定义了一个基于连续正规化流(CNF)的框架,通过回归预定路径上的速度场来训练生成模型【9†L53-L62】,不再需要模拟扩散过程。Rectified Flow 则使用最简单的概率路径------两个分布样本之间的直线路径------来学习流场【7†L53-L61】;MeanFlow 引入平均速度 观点,优化一步生成的效果【11†L53-L61】。这些方法追求更直接的样本转换过程,可用神经ODE进行采样。
核心思想与机制:
- Flow Matching【9†L53-L62】:给定噪声分布和数据分布,设计一系列条件分布曲线(例如线性插值或其他),网络被训练以拟合各点的速度向量,使得流场沿这些路径正确运输质量。这种"无模拟"训练避免了噪声序列的采样开销,可选择任意平滑路径,包含OT路径在内。论文发现,使用OT插值路径比标准扩散路径更高效,训练与采样速度均优于传统扩散【9†L59-L68】。
- Rectified Flow 【7†L53-L61】:专门使用直线耦合(每对数据-噪声样本间的线性连线)作为学习路径。训练目标是让神经ODE沿直线精确生成目标分布;这样模拟过程可实现"易精确的粗步长"【7†L61-L69】,即使只有1步(一步EDM)也能取得接近传统多步扩散的质量【7†L69-L74】。该方法简洁高效,非常适合一阶(single-step)采样。
- MeanFlow 【11†L53-L61】:针对单步流框架,引入"平均速度"概念,链接瞬时速度(Flow Matching)与平均速度(实际生成时运动距离/时间)。作者推导了两者之间的等价关系,设计了自洽损失无需蒸馏即可训练单步生成网络【11†L53-L61】。MeanFlow在ImageNet 256×256上仅1步采样达到FID 3.43【11†L58-L61】,显著缩小了单步与多步模型之间的差距。
代表论文: - Flow Matching for Generative Modeling(Lipman et al., 2022)【9†L53-L62】:提出Flow Matching范式,支持通用概率路径,并演示了使用OT插值的优势【9†L59-L68】。其贡献在于提供了一种可扩展的CNF训练方法,并在ImageNet上取得了比扩散更好的样本质量和速度。局限是对路径设计和网络容量有要求。
- Flow Straight and Fast: Rectified Flow (Liu et al., 2022)【7†L53-L61】:通过直线路径学习流场,实现了一步生成的高效样本生成【7†L69-L74】。贡献是大大简化了采样步骤(模型可以仅用一次简单Euler步长),局限在路径选择较简单,可能对复杂分布保真度略低于多步方法。
- Mean Flows for One-step Generative Modeling(Geng et al., 2025)【11†L53-L61】:提出MeanFlow,一种无需额外预训练即可进行单步生成的框架,达到极低的1步Fid分数。推进了单步生成技术,减小了单步与多步间的性能差距。主要局限是目前仍需针对大规模图像训练,且对模型表达能力有依赖。
3.3 Schrödinger桥 / 输运生成
定义与动机: Schrödinger桥(SB)问题是熵正则化的最优输运在轨迹空间上的推广,用于在两个分布间寻找最"经济"的随机过程【5†L61-L69】。在生成模型中,将噪声分布和数据分布视为输运端点,SB模型可以在有限时间内实现由噪声到数据的最优随机映射 ,而不是依赖长时间的扩散【5†L61-L69】。这对于需要将一个已有样本转变为另一目标样本(如图像修复、风格转换)特别有用。
核心思想与机制: 以Diffusion Schrödinger Bridge (DSB)【5†L61-L69】为例:DSB通过迭代比例拟合 (Iterative Proportional Fitting)构造前向和后向的SDE过程,每轮迭代逼近端点分布。第一迭代即等价于传统扩散模型的训练方法,而后续迭代则逐步优化使噪声端和数据端的分布差距最小【5†L61-L69】。SB本质上引入了一个"有限时间最优输运"视角,理论上可提供更直接的映射,比一般扩散要求更短的时间尺度。
代表论文:
- Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling(De Bortoli et al., 2021)【5†L61-L69】:提出DSB框架,将SB问题应用于生成模型【5†L61-L69】。该论文分析了DSB与传统扩散的关系,证明DSB能在有限时间内收敛到目标分布,首次将输运理论引入扩散模型中。局限在于迭代计算成本高,收敛速度依赖许多因素。
- Implicit Image-to-Image Schrödinger Bridge (I²SB)(Wang et al., 2024)【20†L55-L63】:将SB应用于图像修复任务,通过在每一步中隐式保持原始图像信息,加速修复采样【20†L61-L70】。贡献是在保持同等质量的前提下显著减少生成步骤。局限性是主要在图像修复领域,还需评估对其他条件任务的适用性。
- Latent Schrödinger Bridge(Kim et al., 2024)【22†L58-L66】:在潜空间中实现SB,结合Stable Diffusion的预训练网络进行无监督图像翻译【22†L58-L66】。展示了SB在保持色彩和结构一致性同时仅用极少计算的能力。这些工作表明,SB与潜空间模型结合是未来生成任务(如风格迁移)的一大趋势。
3.4 一步/少步生成建模
定义与动机: 为克服传统扩散冗长的采样过程,一步/少步生成方法旨在用极少或仅一步推理得到高质量样本。这在实时生成和资源受限的场合尤为重要。
核心思想与机制: 这类方法通常通过模型蒸馏 或特殊设计来逼近多步过程的效果。
- Consistency Models 【15†L53-L62】:通过训练模型满足consistency条件,使之直接将噪声映射到图像。该模型支持直接一步生成,也允许多步细化,从而在不同计算预算间调整质量【15†L53-L62】。
- Shortcut Models 【13†L59-L68】:在扩散模型基础上,令网络输入包括期望的跨步大小,训练时让模型学会"跳过"中间步骤【13†L61-L68】。这样可在一张模型和一次训练下输出1步或多步结果,提供灵活高效的采样。
- MeanFlow 【11†L53-L61】:如前所述,通过平均速度视角直接优化一步生成功能,无需额外蒸馏过程。
代表论文: - Consistency Models(Song et al., 2023)【15†L53-L62】:构建了一种新的直接映射模型,支持零次方程(一阶前向)生成,并可通过多步取舍计算和质量的平衡。论文展示了其在CIFAR-10、ImageNet-64等数据集的一步新状态。其中核心贡献在于提出一致性约束和无缝多步扩展,局限在于依赖蒸馏自已有的扩散模型来获得高质量。
- One Step Diffusion via Shortcut Models(Frans et al., 2024)【13†L59-L68】:提出Shortcut模型,只用一个网络和训练阶段即可在不同采样预算下生成,简化了以往需要多阶段训练的复杂方法。该方法在各种步数预算下都优于现有技术【13†L59-L68】。主要贡献是将复杂的蒸馏过程简化为单模型,并允许推理时自由选择步数;局限是需要在训练时预设可变化的步长参数。
3.5 像素空间生成 vs 潜空间生成
定义与动机: 生成模型可直接在像素空间 进行(如原始DDPM【3†L55-L64】),也可先用自动编码器将图像压缩到潜在表示 再生成。像素级生成保证最高的细节保真度,但计算开销巨大;潜空间生成则用较低维度特征学习,大幅加速训练和采样【21†L59-L68】,适合高分辨率生成。
核心思想与机制:
- 像素空间扩散/流模型:直接对原始像素做噪声和去噪,通常需要更大的网络和更多计算。优势是能够捕捉所有细节和纹理变化。
- 潜空间扩散模型(Latent Diffusion, LDM) :在高质量自动编码器的潜空间(经过预训练)上做扩散【21†L59-L68】。Rombach等人指出,这样可在保持视觉质量的同时"达到计算复杂度与细节保存的近最优点"【21†L63-L72】。通过在潜空间融合跨注意力等技术,还可灵活实现文本、掩码等条件输入。
代表论文: - High-Resolution Image Synthesis with Latent Diffusion Models(Rombach et al., 2022)【21†L59-L68】:提出了潜空间扩散框架,成功在有限资源下实现高分辨率合成【21†L59-L68】。贡献在于显著降低了硬件需求,同时保持了与像素空间模型接近的质量。该方法已被应用于多个实际系统。局限在于质量高度依赖自动编码器的表示能力,有时可能出现潜空间解码伪影。
- (选一) 也可提及原始像素扩散 或浮点流模型(如Song等【3†L55-L64】中的1024x1024生成)作为对比,强调潜空间模型的优势与局限。
3.6 条件生成 / 图像-图像生成
定义与动机: 条件生成关注在给定输入(如标签、风格图片、草图、破损图像等)时生成目标图像。常见任务包括图像修复、颜色化、风格转换等。在视觉领域,这类任务往往需要在保持结构信息的同时改变部分内容,因此对生成流程的可控性要求更高。
核心思想与机制: 现代条件生成多基于扩散模型,通过在训练或采样时引入条件引导 (如条件扩散、Guidance)来产生目标图像。例如,条件扩散可在score网络中输入条件信息,或对噪声梯度进行引导。然而,新趋势是分布桥接 :将条件输入视作源分布下的样本,目标分布为想要生成的样本,使用SB或OT思路桥接它们。
代表论文:
- Implicit I²SB for Image Restoration(Wang et al., 2024)【20†L55-L63】:前述在图像修复中应用SB,显示了从"破损图像"开始,通过桥接生成清晰图像的可能性【20†L55-L63】。强调了在每步引入条件信息以提速。
- Latent Schrödinger Bridge(Kim et al., 2024)【22†L58-L66】:在未配对的图像翻译任务中,将Stable Diffusion与SB结合,仅用少量计算完成风格转换【22†L58-L66】。这说明使用潜空间和SB思路进行条件生成是一个有前景的方向。
- 另外,可提及如Denosing Diffusion Implicit Models (DDIM)或Conditional Score-based Models等经典工作,这里不详细介绍。
3.7 采样加速与蒸馏
定义与动机: 扩散和CNF等模型生成高质量图像的代价是多步迭代采样 。为了使其在实际应用中更快,需要各种加速策略。
核心思想与机制:
- 扩散蒸馏与Skip采样:例如通过将多步过程蒸馏到更少步的过程,使其在精度损失可控下减少迭代(如DDIM、Progressive Distillation等)。
- Consistency Models【15†L53-L62】:除了作为独立模型,本身也是一种蒸馏思想的实现,可视为对已有扩散模型的一步蒸馏。
- Reflow/Shortcut Models 【13†L59-L68】:通过输入步长(reflow)或专门网络结构,使单模型能适配多步预算,也是种加速手段。
这些方法的共同点是计算-质量权衡:以较小的精度损失换取显著的生成速度提高。
4. 分支间联系与区别
-
Diffusion vs Flow Matching: 两者都能看作从噪声到数据的分布映射,但实现机制不同。扩散模型使用随机过程(SDE)和score网络,采样时需迭代多步;Flow Matching使用确定性ODE流场,训练时回归速度,不需序列采样【9†L53-L62】。Lipman等指出,Flow Matching框架包含了扩散路径作为特例【9†L53-L62】,但也可选择更高效的OT路径。此外,扩散模型天然支持噪声与样本的不确定性表征,Flow Matching侧重确定映射。流模型在采样效率上具有优势,但在大尺度复杂分布拟合上可能需要强大网络。
-
Flow Matching vs Rectified Flow: Rectified Flow其实是Flow Matching的特例:它固定使用"直线插值"作为插值路径【7†L53-L61】。因此,Rectified在结构上更简单,训练目标更明确------使生成沿直线"校正"到数据。因此Rectified训练收敛更快、可一阶模拟;而一般Flow Matching可采用更灵活的耦合以优化其它成本(如OT代价)【9†L59-L68】。
-
Schrödinger Bridge vs Optimal Transport: OT是无噪声的最优耦合问题,SB则在路径空间加入了熵正则【5†L61-L69】。因此SB在极端情况(熵权重为0)退化为经典OT,熵作用使问题更稳定可解。SB框架生成的是随机过程(SDE) ,既包含OT的"最短路径"概念,也包含随机性;普通OT通常只提供静态的一步映射。SB可以看作连续时间的Sinkhorn算法【5†L61-L69】。简言之,OT关注最优成本,SB在此基础上考虑了不确定性。
-
潜空间 vs 像素空间: 像素空间模型直接生成图像,保真度最高;潜空间模型生成的是经过预训练编码器压缩后的特征,计算效率高、可扩展到更大分辨率【21†L59-L68】。潜模型易于加入自注意力、跨模态条件等,而像素模型在表现最细节上稍优。实践中常取折中:在潜空间生成后再解码为像素。
-
多步生成 vs 单步生成: 多步(如DDPM)生成灵活、质量高,但速度慢;单步(如Consistency、MeanFlow)生成极快,却往往依赖复杂训练或降低质量。单步模型的基本思路是将多步映射压缩到一步,典型手段是蒸馏:例如Consistency模型是对扩散的蒸馏【15†L53-L62】。因此它们共享目标(学到相同映射),但单步方法在计算上更高效。
-
Score-based vs Velocity-field: Score-based模型学习的是噪声数据分布的梯度(score),采样通过反SDE/ODE;Velocity-field模型学习的则是样本沿时间的速度场(flow vector)。在数学上,扩散的概率流ODE(Probability Flow ODE)就揭示了二者的联系:ODE的速度场等于score乘以噪声标准差(见Song等【3†L55-L64】)。因此本质上两者可视为同一框架的不同表达:score基于梯度,velocity基于流向,两种视角各有侧重。
5. 方法脉络总结与比较
下面表格汇总了各类方法的主要特性:
| 方法类别 | 强调概率建模 | 强调输运/流视角 | 采样效率 | 像素级生成保真 | 条件/桥接能力 |
|---|---|---|---|---|---|
| 扩散/Score-based | ✓(随机SDE) | 中(多步) | ✓✓(高质量) | ✓(自然支持) | |
| Flow Matching | ✓(确定ODE) | ✓(单流场) | ✓(高质量) | 中(可扩展) | |
| Rectified Flow / MeanFlow | ✓(线性耦合) | ✓✓(少步) | 中(稍逊) | 低 | |
| Schrödinger Bridge | ✓(熵正则) | ✓(最优输运) | 中(迭代) | ✓(高保真) | ✓✓(强) |
| 像素空间生成 | ✓(详尽概率) | 低(慢) | ✓✓✓(最优) | 中 | |
| 潜空间生成 | ✓(简化版本) | ✓✓(快) | ✓(优) | ✓(可结合) | |
| 一致性/蒸馏 | ✓(基于扩散) | ✓✓✓(极快) | 中(目标逼近) | 依具体方法 | |
| 条件图像生成 | ✓(条件score) | ✓(桥接思想) | - | 可变 | ✓✓(重点) |
| 采样加速 | - | ✓✓✓(优化) | - | - |
说明: 表格中"✓"表示该方法对相应属性的强调程度("✓✓✓"代表很强),如扩散模型强调概率建模和高保真,但采样效率较低;Flow Matching强调输运视角和高质量生成;Schrödinger桥强调输运和条件桥接(用于分布对齐)等。
6. 前沿趋势与研究机会
- 从多步到少步/一步生成:一致性模型、MeanFlow、Shortcut等证明通过模型蒸馏或特殊设计可以大幅减少采样步骤。未来工作可能进一步缩小一步与多步质量差距,甚至探究零推理成本的新范式。
- 从潜空间到像素空间:虽然潜空间扩散因效率高而流行,但对于需要极高细节的任务(如医学成像、卫星遥感),直接在像素空间高效生成仍是挑战。设计新的像素级网络架构或更好的潜空间解析技术是关键。
- 从无条件到条件/桥接生成 :越来越多工作关注将生成模型应用于图像翻译、跨域转换等场景,如利用Schrödinger桥和最优输运理论,这为像灾害变化场景建模等带来潜力。研究如何更稳定地在复杂条件下应用这些方法,是热点。
- 生成与理解协同:集成生成与下游视觉任务(如分割、识别)的联合模型可能成为趋势。比如通过生成的桥接过程增强数据理解、或用条件分布帮助模型学习潜在物理过程。
- 面向专业场景的生成 :从通用自然图像生成向专用领域(如遥感、医学)迁移,需要针对领域特性的模型调整,例如引入物理约束、处理稀疏数据等。这些领域对高保真度和鲁棒性要求更高,可能促使底层方法进一步演化。
7. 对当前研究的建议
结合以上分析,对您的视觉生成研究提出以下建议:
- 优先关注Flow Matching与Rectified Flow路线 。这两者代表了生成模型中输运视角的新主线,且天然支持少步生成。它们对图像到图像生成任务也有潜力,因为可灵活选择路径(包括OT插值)。
- 探索Schrödinger桥和OT相关方法。如果您的研究涉及图像之间的复杂转换(如跨时相或跨域生成),SB提供了理论优雅的分布桥接框架,可直接加速生成并保持条件一致性。尤其可尝试将SB方法与现有扩散框架结合。
- 结合领域需求选择像素/潜空间 。若重点在高分辨率高保真(如地震灾害场景),则倾向于像素级扩散或流模型;若关注生成效率和灵活性,可考虑潜空间扩散或在潜空间中应用SB、条件生成方法。
- 重点跟踪一步/少步技术。Consistency、MeanFlow、Shortcut等新模型能够在很小步数下生成,值得学习其训练策略。可考虑使用蒸馏或变化步长输入,使您的模型在需要实时应用场景时保持高性能。
- 综合利用条件建模与生成加速。对于遥感变化检测、受灾图像生成等任务,可探索将条件扩散(或SB)与加速采样技术结合,如使用辅助网络提供先验,或在空间/频域上做流水线优化,尽可能减少推理时间。
8. 推荐精读论文清单
- Yang Song et al., 2021 -- Score-Based Generative Modeling through Stochastic Differential Equations【3†L55-L64】。 详尽介绍了扩散/score-based生成模型的理论与实现,是现代扩散建模的奠基之作。阅读此文有助于理解扩散模型的数学框架和最优采样算法。
- Yaron Lipman et al., 2022 -- Flow Matching for Generative Modeling【9†L53-L62】。 首次提出Flow Matching范式,展示了如何训练连续正规化流(CNF)进行高质量图像生成。此文重点在于输运思路和对生成路径的灵活选择,对流式模型研究十分关键。
- Xingchao Liu et al., 2022 -- Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow【7†L53-L61】。 提出Rectified Flow,通过直线耦合路径实现几乎一步生成的效果,演示了极端加速下的高保真生成技术。阅读此文可了解少步生成的核心思路。
- Zhengyang Geng et al., 2025 -- Mean Flows for One-step Generative Modeling【11†L53-L61】。 引入平均速度场概念,进一步推进了单步生成的性能,达到了新的State-of-the-Art。适合关注一步建模与流方法的研究者阅读。
- Yang Song et al., 2023 -- Consistency Models【15†L53-L62】。 提出了一致性模型,支持一/多步灵活生成和强大的数据编辑能力。该文展示了一步生成对比传统蒸馏的优势,是采样加速方向的重要参考。
- Kevin Frans et al., 2024 -- One Step Diffusion via Shortcut Models【13†L59-L68】。 提出了Shortcut模型,可在不同步数预算下使用同一模型生成,简化了蒸馏多阶段训练流程。对于需要在推理时可变步数的应用场景,值得深入研究。
- Valentin De Bortoli et al., 2021 -- Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling【5†L61-L69】。 将Schrödinger桥理论应用于生成模型,阐述了如何在有限时间内构造最优随机输运过程。对理解扩散与输运结合的思想非常有帮助。
- Yuang Wang et al., 2024 -- Implicit Image-to-Image Schrödinger Bridge for Image Restoration【20†L55-L63】。 将SB应用于图像修复,介绍了如何在每步保留输入图像信息以加速修复生成的策略。此文是条件生成和SB结合的实例。
- Jeongsol Kim et al., 2024 -- Latent Schrödinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation【22†L58-L66】。 在潜空间中使用Schrödinger桥进行无监督的图像翻译,通过预训练Stable Diffusion网络实现快速转换。这篇文章展示了潜空间生成、SB与条件任务的前沿应用。
- Robin Rombach et al., 2022 -- High-Resolution Image Synthesis with Latent Diffusion Models【21†L59-L68】。 引入潜空间扩散模型,实现了效率与质量的最佳平衡。阅读它有助于理解潜空间建模的优势及在条件生成(跨模态扩展)方面的应用。
- Nichol & Dhariwal, 2021 -- Improved Denoising Diffusion Probabilistic Models(ICML 2021)。虽然不是连结打开的引用,但这篇论文通过改进扩散目标函数和噪声调度,显著提升了扩散模型生成质量和对数似然度,是扩散模型实践中的里程碑。
- Additional suggestions: 其余可关注如Flow Matching GAN (Yoon et al. 2023)、Entropic OT in Generative Models等最新工作,以及领域相关的综述文章。这些都对丰富视角、构建完整知识图谱大有裨益。