【Domain Generalization(3)】领域泛化与文生图之 -- QUOTA 任意领域中的生成物体的数量可控

系列文章目录


文章目录


快速讲清楚

  1. 任务是文生图,重点在生成图像中物体数量的准确性/可控性。
  2. 关键是 Any Domain,在两阶段(不同 Domain) 的数据上对新增的 token 优化/训练,实现领域泛化。
  3. 主要做法是
    • 1)在 SDXL 上实现 Textual Inversion,只学 style 和 count token,并增加了 counting loss 和 semantic loss,构造了 QUANT-Bench 数据。
    • 2)训练方法: 和 Textual Inversion 训练类似但 loss 不一样,主要是引入了两个 loss,即 YOLOv9 来计算 counting loss,以及 CLIP Image Encoder 来算 semantic loss 。
    • 3)训练数据:构造的 QUANT-Bench 数据有 Photo, Painting, Cartoon, 和 Sketch 4 个 Domain 的各种多数量物体,训练时先在 3 个 domain 的数据中训(meta-train domains),然后接着再在剩下的 1 个 domain 上训(meta-test domains)。

背景

  • 文生图在准确控制生成图像中对象数量,尤其是面对不同训练域(这里主要是不同的风格)的文本提示时,仍存在挑战。
  • 领域泛化(Domain Generalization)旨在创建能在未知域良好表现的模型,减少重新训练需求,在准确数量物体的图像生成方面尚未有领域泛化的相关探索。

动机

  • 个性化图像生成在处理对象数量的定量概念时面临独特挑战,现有方法如 Textual Inversion 和 DreamBooth 主要针对特定概念微调,难以精确控制对象数量。
  • 优化提示对应方法通常未解决对象数量的数值准确性问题,而域泛化研究中也缺乏对文本到图像扩散模型中域可泛化对象量化的关注,因此需要一种新方法来实现不同域中准确且可泛化的对象量化。

做法

  • 域可泛化对象量化:利用多个域进行训练,在训练阶段将域分为元训练域和元测试域,随机选择元测试域,基于预训练的扩散模型生成图像,测试阶段使用 YOLOv9 和 CLIP - S 评估生成图像中的对象数量和语义一致性,模拟真实场景中的域转移。
  • 双循环元优化
    • 内循环优化:针对元训练域优化提示参数,包含量化损失(利用可微计数函数 Count 计算估计对象数量与目标数量差值,基于 YOLOv9 估计)和 CLIP 匹配惩罚(确保图像语义与文本描述一致),通过两者之和计算内循环损失并更新提示参数。
    • 外循环优化:在元测试域上进一步优化提示参数,基于内循环更新后的参数生成图像计算损失,更新全局元参数,增强模型对未知域的泛化能力。
  • 可学习的量化和域标记 :在提示中引入可学习的 e c o u n t e_{count} ecount 和 e s t y l e e_{style} estyle 标记,初始提示格式为 "A s d s_{d} sd of N c",将标记嵌入与文本嵌入连接,训练时内循环在元训练域训练标记以捕获域特定提示特征,外循环通过调整元参数进行域泛化,测试时将测试文本提示中的域和量化信息与学习到的标记连接生成图像。

实验

  • 对比实验:与 SDXL 和 IoCo 进行对比,SDXL 作为基础模型,IoCo 仅在训练时学习量化标记且仅针对照片域。
  • 消融实验
    • 验证双循环元优化的作用,通过有无元优化对比,结果表明元优化在 MAE、RMSE 和 CLIP - S 指标上均有提升,增强了对象量化准确性和域泛化能力。
    • 验证可学习标记的作用,分别对比仅添加 e s t y l e e_{style} estyle、仅添加 e c o u n t e_{count} ecount 和同时添加两者的情况,结果显示同时使用两个标记时模型在各指标和域上性能最佳,提高了计数准确性和域适应性。
  • 具体评估指标
    • 量化准确性:使用基于 YOLOv9 的 MAE(平均绝对误差)和 RMSE(均方根误差),通过比较检测到的对象数量与目标数量计算。
    • 语义对齐评估:采用归一化的 CLIP 匹配分数 CLIP - S,定义为 C L I P − S ( p , x d ) = w ⋅ m a x ( c o s ( p , x d ) , 0 ) CLIP - S(p,x_{d}) = w\cdot max(cos(p,x_{d}),0) CLIP−S(p,xd)=w⋅max(cos(p,xd),0),其中 p p p 为提示, x d x_{d} xd 为生成图像。同时计算不同域上的平均性能评估模型一致性和适应性。
相关推荐
m0_743106462 小时前
【论文笔记】多个大规模数据集上的SOTA绝对位姿回归方法:Reloc3r
论文阅读·深度学习·计算机视觉·3d·几何学
埃菲尔铁塔_CV算法2 小时前
双线性插值算法:原理、实现、优化及在图像处理和多领域中的广泛应用与发展趋势(二)
c++·人工智能·算法·机器学习·计算机视觉
程序猿阿伟2 小时前
《AI赋能鸿蒙Next,打造极致沉浸感游戏》
人工智能·游戏·harmonyos
遇健李的幸运2 小时前
深入浅出:Agent如何调用工具——从OpenAI Function Call到CrewAI框架
人工智能
天天讯通3 小时前
AI语音机器人大模型是什么?
人工智能·机器人
说私域3 小时前
微商关系维系与服务创新:链动2+1模式、AI智能名片与S2B2C商城小程序的应用研究
人工智能·小程序
hnmpf3 小时前
flask_sqlalchemy relationship 子表排序
后端·python·flask
人机与认知实验室3 小时前
人-AI协同如何重塑未来战争?
人工智能
学技术的大胜嗷3 小时前
小目标检测难点分析和解决策略
人工智能·目标检测·计算机视觉
疯狂学习GIS3 小时前
互联网大中小厂实习面经:滴滴、美团、货拉拉、蔚来、信通院等
c++·python