掘力计划第27期下一代快速生成模型: 从潜在扩散模型(LDM)到潜在一致性模型(LCM)

2023年11月11日，在北京举办的掘力计划第27期活动中，我们邀请到清华大学交叉信息研究院的骆思勉来做主题为《下一代快速生成模型：从潜在扩散模型(LDM)到潜在一致性模型(LCM)》的技术分享。骆思勉讲师是 Latent Consistency Model(LCM) 论文作者，清华叉院二年级在读硕士，本科毕业于复旦大学大数据学院。研究方向为机器学习与生成模型。研究兴趣包括：多模态生成，AIGC 模型加速。致力于开发下一代的生成模型。

在这场技术分享中，骆思勉讲师详细阐述了潜在扩散模型（LDM）如 Stable Diffusion 在人工智能生成内容（AIGC）领域取得的显著成就，以及面临的挑战。他深入解释了这些模型如何利用文本描述生成具有艺术效果的图片，同时指出了其计算资源消耗巨大和生成速度缓慢的问题。针对这些问题，他提出了潜在一致性模型（LCM），一个创新性的解决方案，旨在显著提升预训练潜在扩散模型的生成速度，并且在实际应用中取得了卓越的成效。

本文将深入探讨骆思勉讲师在此次活动中分享的内容，从 LDM 的基本概念出发，逐步深入到 LCM 的技术细节，旨在为读者提供一个全面而深入的技术视角，以理解这一领域最新的研究进展和未来的发展趋势。

视频回放地址：live.juejin.cn/4354/289912...

一、潜在扩散模型 (LDM)

首先，骆思勉介绍了扩散模型（Diffusion Models）的思想源自于非平衡热力学中的扩散过程。想象一下，将热水滴入冷水中，热量会逐渐扩散，直到整个水体温度均匀，达到温度平稳均匀的一个状态。这对应的是从原始的带结构的数据分布逐渐通过扩散过程得到的最终均衡分布。而在扩散模型中，该扩散过程的逆向过程被用来模拟图像生成的过程。生成的过程具体过程为通过随机采样一个噪声，利用模型逐步去噪，最终恢复成一个清晰的图像。

扩散模型的奠基性工作之一"denoising diffusion probabilistic model"（DDPM），在2020年被提出。DDPM 定义了两个过程，前向过程：对数据添加噪声。逆向过程：利用模型逐渐去除噪声，最终得到干净的图片。

从连续时间的角度上看，逐步添加和去除噪声的过程分别对应了两个随机微分方程(SDE)：前向SDE和反向SDE。

不过，LDM 的一个挑战是其推理速度还存在明显的瓶颈，这主要是由于LDM的推理仍需要大于20步的迭代次数来得到一张高质量的图像。

在理解了 LDM 的基本原理后，就更容易把握它如何在人工智能领域内被用来生成图像，以及为什么这一技术如此引人注目。LDM 不仅能生成高质量的图像，而且提供了一个强大的框架，可以在未来的研究和应用中不断发展和完善。

二、加速扩散模型的采样

骆思勉讲师接下来深入探讨了扩散模型在图像生成领域中的关键应用，及其采样过程的加速方法。这一部分的核心是对潜在扩散模型（Latent Diffusion Models, LDMs）如 Stable Diffusion 进行加速采样的探索，以减少在图像生成过程中的迭代步数，计算资源消耗和提高速度。

扩散模型，由于其使用迭代式方法求解概率流常微分方程(PF-ODE)的特性，在图像生成时需要经历大量的计算步骤。这导致生成过程既耗时又耗资源。例如，Stable Diffusion 模型在生成一张图片时，通常需要进行20多步的迭代。为了克服这一挑战，研究人员探索了多种方法，旨在减少必要的迭代次数，同时保持生成图像的高质量。

扩散模型中的 SDE 与 ODE 在数学上，扩散模型可以通过随机微分方程（SDE）来表示。这一表示方法虽然强大，但在实际应用中存在效率低下的问题。为解决这一问题，之前的研究者提出使用常微分方程（ODE）作为替代方法。ODE 相比 SDE，可以在不牺牲质量的前提下，显著提高采样效率。这种常微分方程通常称为概率流常微分方程(PF-ODE)。
Training-Free加速方法：如DDIM 和 DPM Solver
1. DDIM（Denoising Diffusion Implicit Models）框架是一种有效的加速方法。它通过跳过 Markov 链中的某些步骤，减少了所需的迭代次数，从而在保持图像质量的同时加快了采样速度。
2. DPM Solver 和 DPM Solver++ 等方法则进一步优化了这一过程，使用更高阶的PF-ODE求解器。这些方法能够在 10 至 25 步迭代中生成高质量的图像，显著高于传统方法需要的迭代次数。

这些加速方法的出现对于整个人工智能图像生成领域来说，是一个重大的突破。它们不仅提高了图像生成的速度，而且减少了计算资源的消耗，为更广泛的应用提供了可能。特别是在像 Stable Diffusion 这样的模型上，加速方法使得高质量图像的生成变得更为快速和高效，从而推动了 AIGC（人工智能生成内容）领域的发展。

三、一致性模型 (CM)

近年来，生成模型，尤其是扩散模型，在图像生成和其他人工智能领域取得了显著进展。然而，这些模型在生成高质量图像时通常需要经历数百甚至数千步的迭代，导致计算效率低下。为解决这一问题，研究人员提出了一致性模型，旨在大幅提高生成模型的效率。

一致性模型的核心思想在于改变传统扩散模型生成过程的基础逻辑。传统的扩散模型通过逐步减少图像的噪声来生成最终结果，这个过程通常是迭代且耗时的。相比之下，一致性模型采用了一种直接预测最终清晰图像的方法，减少了中间步骤，大幅提升了效率。

具体来说，一致性模型的关键在于它将传统的数值 ODE（常微分方程）求解器转化为基于神经网络的求解器。这种转变意味着模型不再依赖于逐步迭代和逐步去噪的过程，而是能够直接从任何时刻预测最终的清晰图像。这种方法的优势在于其直接性和效率，允许模型在更少的步骤中生成高质量的图像，显著提高了整体的性能和应用的可行性。

此外，一致性模型还在保持生成图像质量的同时，克服了一些传统扩散模型的限制。例如，它能够处理更高分辨率的图像，并支持更复杂的图像生成任务。这一点在图像生成领域尤为重要，因为它拓宽了模型的应用范围，包括在艺术创作、娱乐行业和更多商业应用中的潜在使用。

四、潜在一致性模型 (LCM)

潜在一致性模型（LCM）的出现标志着生成模型领域的一个重要进展。这一模型基于一致性模型的原理，结合了潜在扩散模型（LDM）的核心特点，实现了生成过程的显著加速。与先前的 LDM 相比，LCM 在生成图像的速度上取得了质的飞跃。传统的 LDM，如 Stable Diffusion，需要经过多步迭代来生成一张图片，而 LCM 大幅减少了这一迭代次数。实际应用中，LCM 仅需约四步迭代即可生成高质量图像，比传统 LDM 模型至少快五倍。

LCM 的这一特性不仅在理论上具有划时代的意义，而且在实际应用中也获得了显著的认可。自模型上线以来，它在 Hugging Face 平台上的下载量超过 40万次(截止于2023年11月30日)，Hugging Face 文生图模型排行榜第一，表明了其强大的市场吸引力和实用价值。这种高效的生成能力，使得 LCM 在 AIGC 领域具有广泛的应用前景。

LCM 技术的核心在于其对生成过程的优化。它不仅仅是一个文本到图像的转换模型，而是背后的技术可以应用于多种生成模型。在 LCM 的背景下，将重点放在了对图片生成过程的加速上，特别是在生成高分辨率图像方面，LCM 展现了其卓越的性能。

此外，LCM 还支持 Classifier-Free Guidance（CFG），这是一种可以显著提升图像质量的技术。通过应用 CFG，生成的图像质量有了明显提升，特别是在需要生成具体主题或风格的图像时。这一点在稳定扩散模型中尤为重要，因为它允许用户通过文本提示来指导图像的生成，从而产生更符合预期的结果。

在技术实现上，LCM 采用了增广概率流常微分方程（Augmented PF-ODE）的方法，这是一种更复杂的 PF-ODE，用于处理带条件的扩散过程。这种方法的引入进一步增强了 LCM 在处理各种条件下图像生成时的灵活性和准确性。

五、结论与未来展望

综合来看，LCM 作为一种先进的生成模型，不仅在技术上取得了重大突破，而且在实际应用中显示出强大的潜力。其高效的生成能力和灵活的适用范围使其成为 AIGC 领域的一个重要里程碑。随着技术的不断发展和优化，预计 LCM 将在未来的多模态生成领域扮演更加关键的角色。

骆思勉讲师的分享不仅为我们提供了一个关于当前生成模型技术的全面概述，更为我们揭示了未来可能的发展趋势和应用领域。在不断变化的技术环境中，LCM 模型的出现无疑是一个里程碑，它不仅推动了生成模型技术的发展，也为未来的创新和应用打开了新的大门。

掘力计划

掘力计划由稀土掘金技术社区发起，致力于打造一个高品质的技术分享和交流的系列品牌。聚集国内外顶尖的技术专家、开发者和实践者，通过线下沙龙、闭门会、公开课等多种形式分享最前沿的技术动态。