一、CSA-GAN：基于条件语义增强的文本到图像生成

文章来源：软件学报 2023年11月引用格式：余凯;宾燚;郑自强;杨阳.基于条件语义增强的文本到图像生成[J/OL].软件学报,1-15[2023-11-26]doi.org/10.13328/j.....

1.1、主要创新

文本生成图像在视觉上取得了优异效果，但是仍然存在细节表达不足等问题，例如, 在某些细节场景中生成的图像可能显得和整体图像不和谐, 并且生成的对象缺乏必要的文本语义特征。

基于以上问题，文章提出基于条件语义增强的生成方法CSA-GAN，通过在文本编码基础上, 对其进行条件语义增强, 并结合残差结构的语义空间融合进行图像生成创新点如下：

在文本编码后进行条件语义增强，以在给定少量的文本图像数据对的情况下能提供更多的增强数据。提高小扰动在语义空间的鲁棒性以达到更准确得图像生成效果并为后续的细节场景提供潜在信息
通过对中间层特征进行上采样生成图像掩码，并与增强后的条件语义进行空间-语义融合，以更好地适配生成符合文本描述的内容，从而生成具有更丰富、准确细节的图像。
针对细节表达问题，使用残差生成器 G0 对其中细节进行补充。

1.2、主要框架

其中条件语义增强在传统的批量归一化的基础上引入了一个新的变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> c c </math>c作为条件约束，具体来讲，文章将文本嵌入得到相应的特征进行随机采样得到 <math xmlns="http://www.w3.org/1998/Math/MathML"> c c </math>c，具体体现为从一个独立的高斯分布 <math xmlns="http://www.w3.org/1998/Math/MathML"> N ( μ ( ϕ t ) , ∑ ( ϕ t ) ) \mathcal{N}\left(\mu\left(\phi_{t}\right), \sum\left(\phi_{t}\right)\right) </math>N(μ(ϕt),∑(ϕt))进行随机采样：

上述的条件语义增强在给定少量的文本图像数据对的情况下能提供更多的增强数据, 从而提高生成器对于语义空间流形上小扰动的鲁棒性, 提高了模型的性能。

为了进一步增强语义空间流形的连续性, 同时为了避免模型过拟合的情况发生, 在目标函数中增加了一项在模型训练时针对生成器的正则化: <math xmlns="http://www.w3.org/1998/Math/MathML"> D K L ( N ( μ ( ϕ t ) , ∑ ( ϕ t ) ) ∥ N ( 0 , I ) ) D_{K L}\left(\mathcal{N}\left(\mu\left(\phi_{t}\right), \sum\left(\phi_{t}\right)\right) \| \mathcal{N}(0, I)\right) </math>DKL(N(μ(ϕt),∑(ϕt))∥N(0,I))

其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> N ( 0 , I ) \mathcal{N}(0, I) </math>N(0,I)为采样分布， <math xmlns="http://www.w3.org/1998/Math/MathML"> N ( μ ( ϕ t ) , ∑ ( ϕ t ) ) \mathcal{N}\left(\mu\left(\phi_{t}\right), \sum\left(\phi_{t}\right)\right) </math>N(μ(ϕt),∑(ϕt))为语义空间分布，条件语义增强引入细微语义扰动, 从而学习更加稳健鲁棒, 语义更加丰富, 能够生成不同外观和姿态的图像, 而不是仅重复生成同一种图像。（具体原理请看原文）

1.3、实验

模型在 IS 指标上取得了 5.44, 在 FID 指标上取得了 17.04. 即本文提出的模型比基线模型生成质量更佳, 多样性更优秀。

模型主要是能解决现有模型不能很好处理的前景和背景交界处的视觉上不协调的问题：

相对 DF-GAN 和 SSA-GAN, 本模型产生的可视化图结果的细节表现得更好. 主要体现在主体和背景交融处显得更加自然和谐。

二、SA-AttnGAN：基于自注意力机制的文本生成单目标图像方法

文章来源：计算机工程与应用 2022年2月引用格式：鞠思博,徐晶,李岩芳.基于自注意力机制的文本生成单目标图像方法[J].计算机工程与应用,2022,58(03):249-258.

2.1、主要创新

合成单目标图像在真实性上仍存在一定缺陷，如针对鸟类图形合成时，会出现"多头""多嘴"等异常情况，基于上述问题本文提出SA-AttnGAN，创新点如下：

在初始阶段增加自注意力模块，改善原模型生成不符合常态的鸟类图片；
还制作了文本生成图像服装数据集，为其他研究者扩展了t2i技术的应用领域，奠定了数据基础。

2.2、主要框架

结构大致与AttnGAN相似，文本被编码成句子特征和单词特征分别代入三个阶段生成器和鉴别器当中生成图像，原理类似的地方不再赘述。创新的地方就是其在初始阶段加入了红框所示的自注意力模块。

2.2.1、自注意力模块

引入自注意力机制，通过对图像特征映射间的自主学习，分配不同的权重信息，使最终得到的特征图包含更多的空间与位置信息，进一步提升高分辨率图像合成的效果，降低模型生成崩溃的可能。如上图所示，其首先使用三个1×1卷积核，将图像特征转化到特征空间f,g,u，然后将三者通过自注意力机制进行相乘计算合成图像的第j个区域时的第i个位置的权重信息。经过自注意力学习到特征图中空间与位置的关系，为图像中重要细节信息赋予更大权重，有利于初始阶段生成更有意义的图像。