港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!

又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。 PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。

PCM主要改善了三个LCM原有的问题:

  • LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。

  • LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。

  • LCM 的损失项无法实现分布一致性,在低推理步骤下会产生质量较差的结果。

相关链接

论文:https://arxiv.org/abs/2405.18407

视频:https://www.youtube.com/watch?v=B4ieLnS4MTY

代码:https://github.com/G-U-N/Phased-Consistency-Model

论文阅读

阶段性一致性模型:朝着稳定、快速的图像和视频生成方向发展

动机

一致性模型(CM)是一种具有高质量和快速生成特性的新型生成模型。潜在一致性模型(LCM)试图将其扩展到文本条件下的高分辨率生成的潜在空间。然而,其结果并不令人愉快。在这项工作中,我们表明了当前LCM的设计在三个方面存在缺陷。

我们提出了相位一致性模型~(PCM),推广了LCM的设计空间,很好地解决了这些局限性。在训练和推理两方面提出了创新策略,以提高生成质量。包括1步、2步、4步、8步、16步在内的大量实验结果以及广泛应用的稳定扩散和稳定扩散XL基础模型验证了PCM的进步。

潜在一致性模型有三个主要的局限性。

  • LCM只接受CFG小于2的标度。较大的值会导致过度曝光。LCM对负提示不敏感。

  • LCM在不同的推理步骤下不能得到一致的结果。当步长过大或过小时,其结果是模糊的。

  • LCM的损失项不能达到分布一致性,在低阶跃状态下产生较差的结果。

在这项工作中,我们调查了这些限制背后的原因,并提出了PCM,它很好地解决了所有这些限制。

PCM与以往方法质量比较

由PCM一步生成的图像

SD1.5+PCM

由PCM一步生成的图像

SDXL+PCM

文字转视频

与AnimateLCM在低步进模式下的视频生成质量比较。模型可以在两个步骤中生成高质量的视频。

结论

尽管可以在几个步骤中生成高质量的图像和视频,但我们发现当步数很低,特别是只有一步,生成质量不稳定。模型可能产生结构错误或图像模糊。

幸运的是,我们发现这种现象可以通过多步细化来缓解。总之,在本文中,我们观察到了缺陷 在文本条件控制下使用一致性模型生成高分辨率潜在空间。本文从三个层面对这些缺陷进行了总结,分析了缺陷产生的原因,并概括了缺陷的设计框架来解决这些缺陷。

相关推荐
冷眼看人间恩怨10 分钟前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_8830410811 分钟前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌1 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭1 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^1 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
Power20246662 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k2 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫2 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班3 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型
数据猎手小k3 小时前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型