港中文&斯坦福提出SD加速模型PCM,一步即可生成图像和视频,可直接与SD1.5,SDXL,AnimateLCM结合!

又有新的SD加速模型可以用了,PCM解决了原来LCM模型的各种问题。并且对 AnimateLCM 也做了优化,用PCM直接生成动画也可以保证质量了。 PCM从这三个角度说明了LCM的设计空间是有限的并很好地解决了这些限制。

PCM主要改善了三个LCM原有的问题:

  • LCM 只能接受小于 2 的 CFG 规模。较大的值会导致图像过度曝光。此外,LCM 对负面提示不敏感。

  • LCM 在不同的推理步骤中无法产生一致的结果。当推理步骤过大或过小时,其输出的结果会变得模糊。

  • LCM 的损失项无法实现分布一致性,在低推理步骤下会产生质量较差的结果。

相关链接

论文:https://arxiv.org/abs/2405.18407

视频:https://www.youtube.com/watch?v=B4ieLnS4MTY

代码:https://github.com/G-U-N/Phased-Consistency-Model

论文阅读

阶段性一致性模型:朝着稳定、快速的图像和视频生成方向发展

动机

一致性模型(CM)是一种具有高质量和快速生成特性的新型生成模型。潜在一致性模型(LCM)试图将其扩展到文本条件下的高分辨率生成的潜在空间。然而,其结果并不令人愉快。在这项工作中,我们表明了当前LCM的设计在三个方面存在缺陷。

我们提出了相位一致性模型~(PCM),推广了LCM的设计空间,很好地解决了这些局限性。在训练和推理两方面提出了创新策略,以提高生成质量。包括1步、2步、4步、8步、16步在内的大量实验结果以及广泛应用的稳定扩散和稳定扩散XL基础模型验证了PCM的进步。

潜在一致性模型有三个主要的局限性。

  • LCM只接受CFG小于2的标度。较大的值会导致过度曝光。LCM对负提示不敏感。

  • LCM在不同的推理步骤下不能得到一致的结果。当步长过大或过小时,其结果是模糊的。

  • LCM的损失项不能达到分布一致性,在低阶跃状态下产生较差的结果。

在这项工作中,我们调查了这些限制背后的原因,并提出了PCM,它很好地解决了所有这些限制。

PCM与以往方法质量比较

由PCM一步生成的图像

SD1.5+PCM

由PCM一步生成的图像

SDXL+PCM

文字转视频

与AnimateLCM在低步进模式下的视频生成质量比较。模型可以在两个步骤中生成高质量的视频。

结论

尽管可以在几个步骤中生成高质量的图像和视频,但我们发现当步数很低,特别是只有一步,生成质量不稳定。模型可能产生结构错误或图像模糊。

幸运的是,我们发现这种现象可以通过多步细化来缓解。总之,在本文中,我们观察到了缺陷 在文本条件控制下使用一致性模型生成高分辨率潜在空间。本文从三个层面对这些缺陷进行了总结,分析了缺陷产生的原因,并概括了缺陷的设计框架来解决这些缺陷。

相关推荐
逐鹿人生35 分钟前
【人工智能工程师系列】一【全面Python3.8入门+进阶】ch.3
人工智能
杨浦老苏1 小时前
本地优先的AI个人助手Moltis
人工智能·docker·ai·群晖
OBS插件网1 小时前
OBS直播如何给人脸加口罩特效?OBS口罩特效插件下载安装教程
人工智能·数码相机·语音识别·产品经理
盛夏光年爱学习1 小时前
浅谈Agent上下文工程
aigc
LitchiCheng1 小时前
Mujoco 如何添加 Apriltag 并获得相机视野进行识别
人工智能·python·开源
想用offer打牌1 小时前
一站式了解Agent Skills
人工智能·后端·ai编程
一切尽在,你来1 小时前
LangGraph快速入门
人工智能·python·langchain·ai编程
阿杰学AI2 小时前
AI核心知识110—大语言模型之 AI Collaboration Manager(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·人机交互·ai协作管理员
SCLchuck2 小时前
人工智能-概率密度估计
人工智能·python·概率论·概率密度估计
王解2 小时前
AI Agent记忆模块进化史:从临时缓存到认知架构的设计范式
人工智能·缓存·架构