【Domain Generalization(3)】领域泛化与文生图之 -- QUOTA 任意领域中的生成物体的数量可控

系列文章目录


文章目录


快速讲清楚

  1. 任务是文生图,重点在生成图像中物体数量的准确性/可控性。
  2. 关键是 Any Domain,在两阶段(不同 Domain) 的数据上对新增的 token 优化/训练,实现领域泛化。
  3. 主要做法是
    • 1)在 SDXL 上实现 Textual Inversion,只学 style 和 count token,并增加了 counting loss 和 semantic loss,构造了 QUANT-Bench 数据。
    • 2)训练方法: 和 Textual Inversion 训练类似但 loss 不一样,主要是引入了两个 loss,即 YOLOv9 来计算 counting loss,以及 CLIP Image Encoder 来算 semantic loss 。
    • 3)训练数据:构造的 QUANT-Bench 数据有 Photo, Painting, Cartoon, 和 Sketch 4 个 Domain 的各种多数量物体,训练时先在 3 个 domain 的数据中训(meta-train domains),然后接着再在剩下的 1 个 domain 上训(meta-test domains)。

背景

  • 文生图在准确控制生成图像中对象数量,尤其是面对不同训练域(这里主要是不同的风格)的文本提示时,仍存在挑战。
  • 领域泛化(Domain Generalization)旨在创建能在未知域良好表现的模型,减少重新训练需求,在准确数量物体的图像生成方面尚未有领域泛化的相关探索。

动机

  • 个性化图像生成在处理对象数量的定量概念时面临独特挑战,现有方法如 Textual Inversion 和 DreamBooth 主要针对特定概念微调,难以精确控制对象数量。
  • 优化提示对应方法通常未解决对象数量的数值准确性问题,而域泛化研究中也缺乏对文本到图像扩散模型中域可泛化对象量化的关注,因此需要一种新方法来实现不同域中准确且可泛化的对象量化。

做法

  • 域可泛化对象量化:利用多个域进行训练,在训练阶段将域分为元训练域和元测试域,随机选择元测试域,基于预训练的扩散模型生成图像,测试阶段使用 YOLOv9 和 CLIP - S 评估生成图像中的对象数量和语义一致性,模拟真实场景中的域转移。
  • 双循环元优化
    • 内循环优化:针对元训练域优化提示参数,包含量化损失(利用可微计数函数 Count 计算估计对象数量与目标数量差值,基于 YOLOv9 估计)和 CLIP 匹配惩罚(确保图像语义与文本描述一致),通过两者之和计算内循环损失并更新提示参数。
    • 外循环优化:在元测试域上进一步优化提示参数,基于内循环更新后的参数生成图像计算损失,更新全局元参数,增强模型对未知域的泛化能力。
  • 可学习的量化和域标记 :在提示中引入可学习的 e c o u n t e_{count} ecount 和 e s t y l e e_{style} estyle 标记,初始提示格式为 "A s d s_{d} sd of N c",将标记嵌入与文本嵌入连接,训练时内循环在元训练域训练标记以捕获域特定提示特征,外循环通过调整元参数进行域泛化,测试时将测试文本提示中的域和量化信息与学习到的标记连接生成图像。

实验

  • 对比实验:与 SDXL 和 IoCo 进行对比,SDXL 作为基础模型,IoCo 仅在训练时学习量化标记且仅针对照片域。
  • 消融实验
    • 验证双循环元优化的作用,通过有无元优化对比,结果表明元优化在 MAE、RMSE 和 CLIP - S 指标上均有提升,增强了对象量化准确性和域泛化能力。
    • 验证可学习标记的作用,分别对比仅添加 e s t y l e e_{style} estyle、仅添加 e c o u n t e_{count} ecount 和同时添加两者的情况,结果显示同时使用两个标记时模型在各指标和域上性能最佳,提高了计数准确性和域适应性。
  • 具体评估指标
    • 量化准确性:使用基于 YOLOv9 的 MAE(平均绝对误差)和 RMSE(均方根误差),通过比较检测到的对象数量与目标数量计算。
    • 语义对齐评估:采用归一化的 CLIP 匹配分数 CLIP - S,定义为 C L I P − S ( p , x d ) = w ⋅ m a x ( c o s ( p , x d ) , 0 ) CLIP - S(p,x_{d}) = w\cdot max(cos(p,x_{d}),0) CLIP−S(p,xd)=w⋅max(cos(p,xd),0),其中 p p p 为提示, x d x_{d} xd 为生成图像。同时计算不同域上的平均性能评估模型一致性和适应性。
相关推荐
大数据魔法师3 小时前
Streamlit(二十三)- 教程(二)- 动态导航
python·web
HackTorjan5 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.5 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
不爱洗脚的小滕5 小时前
【RAG】召回(Retrieval)与重排(Rerank)核心技术要点汇总
langchain·aigc·ai编程·rag
红尘散仙6 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗6 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston6 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz6 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家6 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰6 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型