文本到图像的革新:自动化Prompt优化的UF-FGTG框架

在文本到图像合成领域,已经能够由文本描述直接生成图像。然而,尽管这一技术带来了无限的可能性,它仍然面临着一个关键挑战:如何设计出能够引导模型生成高质量图像的提示(prompts)。尤其是对于初学者而言,他们可能缺乏必要的经验和对关键词的熟悉度,难以手动输入能够满足模型要求的提示,而且用户输入的提示和模型训练时使用的提示之间存在差异。这种用户输入的提示与模型偏好的提示之间存在的差异,常常导致生成的图像与预期效果有所偏差。

针对这一问题,来自复旦大学和同济大学的研究团队构建了一个新颖的粗粒度-细粒度提示数据集(Coarse-Fine Granularity Prompts dataset, CFP),并在此基础上,提出了一个用户友好的细粒度文本生成框架(User-Friendly Fine-Grained Text Generation framework, UF-FGTG),旨在自动化地优化提示,使其更贴合模型的偏好。通过这一框架不仅提高了图像的生成质量,还增加了结果的多样性,使得即使是初学者也能够轻松地生成符合个人需求的图像。
(a) 展示了在文本到图像训练数据集中的提示词长分布与新手用户提供的提示之间存在不一致性,导致模型优选的提示与新手用户提示之间的错位
(b) 展示了所提出的 UF-FGTG 不断重写提示,使用户可以根据他们的需求选择感兴趣的结果,直到满意为止

用户友好的细粒度文本生成框架

UF-FGTG框架的核心是提示细化器(Prompt Refiner),它由细粒度文本编码器(Fine-Grained Text Encoder)和文本解码器(Text Decoder)组成。这个框架的目的是将用户输入的粗粒度提示转换为模型偏好的细粒度提示。在训练过程中,框架利用与图像相关的损失函数来指导文本生成,确保生成的提示能够引导模型生成高质量的图像。为了增加生成结果的多样性,研究者们还引入了一个自适应特征提取模块(Adaptive Feature Extraction Module)。
用户友好的细粒度文本生成框架(UF-FGTG)的架构

如图2,框架的核心部分主要包含以下几个关键组件:

  1. Prompt Refiner(提示细化器):这是文本生成网络的核心,负责将粗粒度的提示转换为细粒度的提示。提示细化器由两个主要部分组成:细粒度文本编码器(ET)和文本解码器(DE)。

  2. Fine-Grained Text Encoder (ET)(细粒度文本编码器):细粒度文本编码器是提示细化器的第一部分,它的任务是将输入的粗粒度提示转换成细粒度的提示特征。这一转换过程受到细粒度文本(TF)的监督,细粒度文本是模型训练过程中用于指导和优化编码器输出的目标文本。

  3. Text Decoder (DE)(文本解码器):文本解码器接收来自细粒度文本编码器的特征,并将其转换回文本形式,生成最终的细粒度提示。这个解码过程同样受到细粒度文本的监督,确保生成的提示既符合模型的偏好,也具有多样性。

  4. Stable Diffusion Model ϵθ(稳定扩散模型):在训练过程中,稳定扩散模型用于生成与细粒度提示相对应的图像。这个模型的输出作为反馈,帮助进一步指导和优化文本编码器和解码器,以生成模型偏好的提示。

  5. Adaptive Feature Extraction Module (N)(自适应特征提取模块):这个模块负责从图像中提取特征,并将其与文本编码器生成的特征相结合。通过这种方式,自适应特征提取模块确保了生成的提示不仅符合模型的偏好,而且能够引导模型生成多样化的图像。

  6. Inference Process(推理过程):在实际应用中,即用户希望生成图像时,只需要使用提示细化器。用户输入一个粗粒度的提示,提示细化器将其转换为一个细粒度的、模型偏好的提示,然后这个提示被用于文本到图像模型来生成图像。

文本到图像扩散模型,如Stable Diffusion,由三部分组成:自动编码器、文本条件UNet去噪模型和CLIP细粒度文本编码器。自动编码器将图像转换到低维潜在空间,而文本编码器接受文本提示并生成特征表示。去噪模型则利用这些特征来生成图像。UF-FGTG框架利用这个模型的变体来生成细粒度提示。

提示细化器是UF-FGTG框架的核心组件,负责将粗粒度的提示转换为细粒度的提示。它由细粒度文本编码器、文本解码器和一个领域适配器组成。细粒度文本编码器基于CLIP模型,能够将粗粒度提示的特征转换为模型偏好的特征。领域适配器和文本解码器则将这些特征转换为人类可读的细粒度提示。

细粒度文本编码器使用CLIP模型,将输入的文本提示转换为特征表示。这个编码器不仅能够理解文本的内容,还能够通过训练过程中的图像相关损失函数,学习生成模型偏好的提示。

文本解码器使用T5模型,将细粒度文本编码器生成的特征转换为最终的文本提示。这个过程涉及到一个特征域适配器,它将CLIP文本特征映射到T5模型的特征空间。

为了确保生成的图像具有多样性,研究者们提出了自适应特征提取模块。这个模块通过动态权重网络来预测图像表示的软动态权重,从而自动学习图像特征的最合适和最相关表示。

UF-FGTG框架使用一个综合损失函数,它是不同组件损失函数的加权和。这些损失函数包括图像相关损失、文本特征转换损失和CLIP增强损失,共同优化文本生成过程。

通过这些组件和策略,UF-FGTG框架能够自动化地优化文本提示,使其更符合模型的偏好,从而提高文本到图像合成的质量和多样性。

实验

研究者们选择了NVIDIA A100 GPU来进行模型的训练和推理。他们使用了AdamW优化器,设置学习率为5e-5,并采用批量大小为16进行训练。模型的初始化采用了与Stable Diffusion-v2.1相一致的OpenCLIP,确保了模型训练的兼容性和有效性。文本编码器、领域适配器和自适应特征提取模块在CFP数据集上进行了100个epoch的训练。

在生成策略方面,研究者们采用了结合Top-p和Top-K的策略来生成细粒度提示,其中p设置为0.95,K设置为50。这样的策略有助于在生成过程中平衡多样性和相关性。图像生成阶段则使用了Stable Diffusion-v2.1模型,设置了CFG scale为7,并采用Euler Ancestral sampler进行50步的去噪处理。

定性比较实验中,研究者们展示了不同模型生成的图像结果。他们将UF-FGTG框架与GPT-2、FLAN-T5、GPT-3.5和GPT-4等传统语言模型进行了比较。结果表明,UF-FGTG能够生成视觉上更具吸引力的图像,并且能够更好地理解模型偏好的提示格式。相比之下,传统语言模型在生成图像时往往难以把握模型偏好的提示结构,导致生成的图像与原始内容有较大偏差。
由不同模型(FLAN-T5、GPT-2、GPT-3.5、GPT-4和UF-FGTG)生成的提示以及由 Stable Diffusion-v2.1 生成的相应图像

定量比较部分,研究者们使用了多个非参考图像质量评估指标,包括NIMA、MUSIQ、DB-CNN和TReS等,来评估生成图像的质量和美学。实验结果显示,UF-FGTG在所有六个评估指标上均优于其他方法,平均改进率达到了5%。这表明UF-FGTG不仅能够生成高质量的图像,还能够生成具有较高美学价值的图像。
不同方法在图像质量和美学评估中的性能。表格列出了使用不同评估指标(如NIMA-TID、MUSIQ-KonIQ等)对GPT-2、FLAN-T5、GPT-3.5、GPT-4和UF-FGTG等方法生成的图像进行评分的结果

在消融研究中,研究者们进一步探讨了不同组件和损失函数对模型性能的影响。他们发现,文本特征转换损失和自适应特征提取模块对于文本到图像任务中的文本生成至关重要。通过调整提示长度,研究者们发现过长的提示可能会导致图像质量和美学评估得分下降,这可能是由于过拟合造成的。实验结果表明,长度为6的提示能够产生最具泛化性能的结果。自适应特征提取模块的引入显著提高了生成结果的多样性,使得模型能够生成风格更加多样化的图像。
在 UF-FGTG 框架中,文本到图像模型(Lmse)和自适应特征提取模块(Lclip)的影响。通过改变配置,研究了不同损失函数对模型性能的影响 自适应特征提取模块如何增加生成结果的多样性。没有这个模块时,模型倾向于以单一风格生成结果;而有了这个模块,模型能够生成多样化的结果

应用

研究者们探讨了UF-FGTG框架在实际应用中的潜力和灵活性。他们提出了两种推荐的文本生成推理策略,这些策略独立于模型的训练阶段,并且能够与原始的Stable Diffusion模型无缝协作进行图像生成。

第一种策略是模型同时生成三个结果,每个结果基于前一个提示进一步扩展六个token,这个过程会迭代进行,直到用户对生成的图像感到满意为止。这种方法允许用户从多个变体中选择最符合他们需求的图像。

第二种策略是模型生成更全面的提示,将最大token数设置为20或50。这种方法的目标是生成更为详细和丰富的提示,以期引导Stable Diffusion模型产生更高质量的图像。

研究者们还展示了UF-FGTG框架作为一个即插即用模块在Stable Diffusion中的应用。他们训练了一个能够将粗粒度提示映射到细粒度提示特征空间的细粒度文本编码器。这使得该编码器能够完全替代原始Stable Diffusion模型中仅用于编码的文本编码器。

通过这种方式,即使是输入提示扩展到一定长度,模型也能够生成如"4k分辨率"、"高度详细"和"最佳质量"等提示,虽然这些提示在语义上不够明确,但它们能够提高生成图像的质量。这表明UF-FGTG框架能够将用户输入的任何提示一致地投影到与细粒度提示对齐的特征空间中,从而提升图像生成的整体质量。

UF-FGTG框架可以作为文本到图像合成任务中的一个独立模块,也可以轻松集成到现有的文本到图像生成模型中,为用户提供了一个强大的工具,以实现更高效和个性化的图像生成。

论文链接:https://arxiv.org/abs/2402.12760

相关推荐
AI趋势预见25 分钟前
使用AI生成金融时间序列数据:解决股市场的数据稀缺问题并提升信噪比
人工智能·深度学习·神经网络·语言模型·金融
Zda天天爱打卡1 小时前
【机器学习实战中阶】使用Python和OpenCV进行手语识别
人工智能·python·深度学习·opencv·机器学习
背太阳的牧羊人2 小时前
冻结语言模型中的 自注意力层,使其参数不参与训练(梯度不会更新)。 对于跨注意力层,则解冻参数,使这些层可以进行梯度更新,从而参与训练。
人工智能·语言模型·自然语言处理
2401_890416712 小时前
Recaptcha2 图像怎么识别
人工智能·python·django
机器之心2 小时前
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行
人工智能
一叶_障目3 小时前
机器学习之决策树(DecisionTree——C4.5)
人工智能·决策树·机器学习
思码逸研发效能3 小时前
在 DevOps 实践中,如何构建自动化的持续集成和持续交付(CI/CD)管道,以提高开发和测试效率?
运维·人工智能·ci/cd·自动化·研发效能·devops·效能度量
AI量化投资实验室4 小时前
deap系统重构,再新增一个新的因子,年化39.1%,卡玛提升至2.76(附python代码)
大数据·人工智能·重构
张登杰踩4 小时前
如何快速下载Huggingface上的超大模型,不用梯子,以Deepseek-R1为例子
人工智能
AIGC大时代4 小时前
分享14分数据分析相关ChatGPT提示词
人工智能·chatgpt·数据分析