【Domain Generalization(3)】领域泛化与文生图之 -- QUOTA 任意领域中的生成物体的数量可控

系列文章目录

【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解
第一篇了解了 DG 的概念，那么接下来将介绍 DG 近年在文生图中的相关应用/代表性工作。
【Domain Generalization(2)】领域泛化在文生图领域的工作之------PromptStyler(ICCV23)
本文则介绍 arXiv 上 24年 11 月发布的工作 QUOTA: Quantifying Objects with Text-to-Image Models for Any Domain

任务是文生图，重点在生成图像中物体数量的准确性/可控性。
关键是 Any Domain，在两阶段（不同 Domain）的数据上对新增的 token 优化/训练，实现领域泛化。
主要做法是
- 1）在 SDXL 上实现 Textual Inversion，只学 style 和 count token，并增加了 counting loss 和 semantic loss，构造了 QUANT-Bench 数据。
- 2）训练方法: 和 Textual Inversion 训练类似但 loss 不一样，主要是引入了两个 loss，即 YOLOv9 来计算 counting loss，以及 CLIP Image Encoder 来算 semantic loss 。
- 3）训练数据：构造的 QUANT-Bench 数据有 Photo, Painting, Cartoon, 和 Sketch 4 个 Domain 的各种多数量物体，训练时先在 3 个 domain 的数据中训（meta-train domains），然后接着再在剩下的 1 个 domain 上训（meta-test domains）。

文生图在准确控制生成图像中对象数量，尤其是面对不同训练域（这里主要是不同的风格）的文本提示时，仍存在挑战。
领域泛化（Domain Generalization）旨在创建能在未知域良好表现的模型，减少重新训练需求，在准确数量物体的图像生成方面尚未有领域泛化的相关探索。

个性化图像生成在处理对象数量的定量概念时面临独特挑战，现有方法如 Textual Inversion 和 DreamBooth 主要针对特定概念微调，难以精确控制对象数量。
优化提示对应方法通常未解决对象数量的数值准确性问题，而域泛化研究中也缺乏对文本到图像扩散模型中域可泛化对象量化的关注，因此需要一种新方法来实现不同域中准确且可泛化的对象量化。

域可泛化对象量化：利用多个域进行训练，在训练阶段将域分为元训练域和元测试域，随机选择元测试域，基于预训练的扩散模型生成图像，测试阶段使用 YOLOv9 和 CLIP - S 评估生成图像中的对象数量和语义一致性，模拟真实场景中的域转移。
双循环元优化
- 内循环优化：针对元训练域优化提示参数，包含量化损失（利用可微计数函数 Count 计算估计对象数量与目标数量差值，基于 YOLOv9 估计）和 CLIP 匹配惩罚（确保图像语义与文本描述一致），通过两者之和计算内循环损失并更新提示参数。
- 外循环优化：在元测试域上进一步优化提示参数，基于内循环更新后的参数生成图像计算损失，更新全局元参数，增强模型对未知域的泛化能力。
可学习的量化和域标记 ：在提示中引入可学习的 e c o u n t e_{count} ecount 和 e s t y l e e_{style} estyle 标记，初始提示格式为 "A s d s_{d} sd of N c"，将标记嵌入与文本嵌入连接，训练时内循环在元训练域训练标记以捕获域特定提示特征，外循环通过调整元参数进行域泛化，测试时将测试文本提示中的域和量化信息与学习到的标记连接生成图像。

对比实验：与 SDXL 和 IoCo 进行对比，SDXL 作为基础模型，IoCo 仅在训练时学习量化标记且仅针对照片域。
消融实验
- 验证双循环元优化的作用，通过有无元优化对比，结果表明元优化在 MAE、RMSE 和 CLIP - S 指标上均有提升，增强了对象量化准确性和域泛化能力。
- 验证可学习标记的作用，分别对比仅添加 e s t y l e e_{style} estyle、仅添加 e c o u n t e_{count} ecount 和同时添加两者的情况，结果显示同时使用两个标记时模型在各指标和域上性能最佳，提高了计数准确性和域适应性。
具体评估指标
- 量化准确性：使用基于 YOLOv9 的 MAE（平均绝对误差）和 RMSE（均方根误差），通过比较检测到的对象数量与目标数量计算。
- 语义对齐评估：采用归一化的 CLIP 匹配分数 CLIP - S，定义为 C L I P − S ( p , x d ) = w ⋅ m a x ( c o s ( p , x d ) , 0 ) CLIP - S(p,x_{d}) = w\cdot max(cos(p,x_{d}),0) CLIP−S(p,xd)=w⋅max(cos(p,xd),0)，其中 p p p 为提示， x d x_{d} xd 为生成图像。同时计算不同域上的平均性能评估模型一致性和适应性。