背景
现有方法要么处理条件效率低下,要么使用固定数量的条件,这并不能完全解决多个条件的复杂性及其潜在冲突。这强调了需要创新方法来有效管理多种条件,以实现更可靠和详细的图像合成。为了解决这个问题,我们提出了一个新的框架 DynamicControl ,它支持不同控制信号的动态组合,允许自适应选择不同数量和类型的条件。
本文方法从一个双循环控制器开始,它通过利用预先训练的条件生成模型和判别模型为所有输入条件生成初始真实分数排序。此控制器评估提取条件和输入条件之间的相似性,以及与源图像的像素级相似性。然后,我们集成多模态大型语言模型 (MLLM) 来构建一个高效的条件评估器。此评估器根据双循环控制器的分数排名优化条件的排序。我们的方法联合优化 MLLM 和扩散模型,利用 MLLM 的推理能力来促进多条件文本到图像 (T2I) 任务。最终排序的条件被馈送到一个并行多控制适配器中,该适配器从动态视觉条件中学习特征图,并将它们集成以调制 ControlNet,从而增强对生成图像的控制。 通过定量和定性比较,DynamicControl 证明了它在各种条件控制下的可控性、生成质量和可组合性方面优于现有方法。
, [69](https://arxiv.org/html/2412.03255v1#bib.bib69) 引入我们的模型中,以构建一个高效的条件评估器。该评估器将各种条件和可提示的指令作为输入,并使用双循环控制器的分数排名优化条件的最佳排序。通过动态选择方案,来自预训练条件评估器的最终排序结果被馈送到并行多控制适配器中,以从动态视觉条件中学习必要的不同级别特征图,其中来自不同视觉条件的独特信息被自适应地捕获。 这样,只有那些对生成的结果和谐且互惠互利的控制条件才会被保留。可以集成输出嵌入以调制 ControlNet [63](https://arxiv.org/html/2412.03255v1#bib.bib63),从而促进特定于任务的视觉调节控制。因此,我们的 DynamicControl 促进了对生成图像的增强和更和谐的控制。
![提议的 DynamicControl 的整体管道。对于多个条件,我们首先集成一个 MLLM 来构建一个高效的条件评估器来对输入条件进行排序,该条件由双周期控制器监督。然后,自适应地选择来自预训练评估器的排名条件,并将其发送到多控制适配器中,以并行学习动态视觉特征,从而提高生成图像的质量。
提议的 DynamicControl 的整体管道。对于多个条件,我们首先集成一个 MLLM 来构建一个高效的条件评估器来对输入条件进行排序,该条件由双周期控制器监督。然后,自适应地选择来自预训练评估器的排名条件,并将其发送到多控制适配器中,以并行学习动态视觉特征,从而提高生成图像的质量。