【Domain Generalization(3)】领域泛化与文生图之 -- QUOTA 任意领域中的生成物体的数量可控

系列文章目录


文章目录


快速讲清楚

  1. 任务是文生图,重点在生成图像中物体数量的准确性/可控性。
  2. 关键是 Any Domain,在两阶段(不同 Domain) 的数据上对新增的 token 优化/训练,实现领域泛化。
  3. 主要做法是
    • 1)在 SDXL 上实现 Textual Inversion,只学 style 和 count token,并增加了 counting loss 和 semantic loss,构造了 QUANT-Bench 数据。
    • 2)训练方法: 和 Textual Inversion 训练类似但 loss 不一样,主要是引入了两个 loss,即 YOLOv9 来计算 counting loss,以及 CLIP Image Encoder 来算 semantic loss 。
    • 3)训练数据:构造的 QUANT-Bench 数据有 Photo, Painting, Cartoon, 和 Sketch 4 个 Domain 的各种多数量物体,训练时先在 3 个 domain 的数据中训(meta-train domains),然后接着再在剩下的 1 个 domain 上训(meta-test domains)。

背景

  • 文生图在准确控制生成图像中对象数量,尤其是面对不同训练域(这里主要是不同的风格)的文本提示时,仍存在挑战。
  • 领域泛化(Domain Generalization)旨在创建能在未知域良好表现的模型,减少重新训练需求,在准确数量物体的图像生成方面尚未有领域泛化的相关探索。

动机

  • 个性化图像生成在处理对象数量的定量概念时面临独特挑战,现有方法如 Textual Inversion 和 DreamBooth 主要针对特定概念微调,难以精确控制对象数量。
  • 优化提示对应方法通常未解决对象数量的数值准确性问题,而域泛化研究中也缺乏对文本到图像扩散模型中域可泛化对象量化的关注,因此需要一种新方法来实现不同域中准确且可泛化的对象量化。

做法

  • 域可泛化对象量化:利用多个域进行训练,在训练阶段将域分为元训练域和元测试域,随机选择元测试域,基于预训练的扩散模型生成图像,测试阶段使用 YOLOv9 和 CLIP - S 评估生成图像中的对象数量和语义一致性,模拟真实场景中的域转移。
  • 双循环元优化
    • 内循环优化:针对元训练域优化提示参数,包含量化损失(利用可微计数函数 Count 计算估计对象数量与目标数量差值,基于 YOLOv9 估计)和 CLIP 匹配惩罚(确保图像语义与文本描述一致),通过两者之和计算内循环损失并更新提示参数。
    • 外循环优化:在元测试域上进一步优化提示参数,基于内循环更新后的参数生成图像计算损失,更新全局元参数,增强模型对未知域的泛化能力。
  • 可学习的量化和域标记 :在提示中引入可学习的 e c o u n t e_{count} ecount 和 e s t y l e e_{style} estyle 标记,初始提示格式为 "A s d s_{d} sd of N c",将标记嵌入与文本嵌入连接,训练时内循环在元训练域训练标记以捕获域特定提示特征,外循环通过调整元参数进行域泛化,测试时将测试文本提示中的域和量化信息与学习到的标记连接生成图像。

实验

  • 对比实验:与 SDXL 和 IoCo 进行对比,SDXL 作为基础模型,IoCo 仅在训练时学习量化标记且仅针对照片域。
  • 消融实验
    • 验证双循环元优化的作用,通过有无元优化对比,结果表明元优化在 MAE、RMSE 和 CLIP - S 指标上均有提升,增强了对象量化准确性和域泛化能力。
    • 验证可学习标记的作用,分别对比仅添加 e s t y l e e_{style} estyle、仅添加 e c o u n t e_{count} ecount 和同时添加两者的情况,结果显示同时使用两个标记时模型在各指标和域上性能最佳,提高了计数准确性和域适应性。
  • 具体评估指标
    • 量化准确性:使用基于 YOLOv9 的 MAE(平均绝对误差)和 RMSE(均方根误差),通过比较检测到的对象数量与目标数量计算。
    • 语义对齐评估:采用归一化的 CLIP 匹配分数 CLIP - S,定义为 C L I P − S ( p , x d ) = w ⋅ m a x ( c o s ( p , x d ) , 0 ) CLIP - S(p,x_{d}) = w\cdot max(cos(p,x_{d}),0) CLIP−S(p,xd)=w⋅max(cos(p,xd),0),其中 p p p 为提示, x d x_{d} xd 为生成图像。同时计算不同域上的平均性能评估模型一致性和适应性。
相关推荐
龙萱坤诺1 小时前
无限画布 + gpt-image-2:用智狐AI工作台把AI草图直接拖进排版区
人工智能·ai短剧·无限画布
catoop1 小时前
AgentScope-Java v2.0 版本 ReActAgent vs HarnessAgent 差异解析与场景选择
ai
倔强的石头_8 小时前
Dify 接入蓝耘 MaaS:从 0 搭建一个企业知识库问答助手
aigc
马***4118 小时前
适配成人英语学习痛点,打造落地性强的学习辅助方式
人工智能·学习
夜焱辰8 小时前
浏览器端 Agent 的文件版本管理:不用 Git,基于 OPFS + SQLite 自己造了一个
前端·人工智能
Ricky05539 小时前
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)
人工智能·机器人·世界模型
jeffer_liu9 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
lifloveyou9 小时前
table接口结构
python
阿乔外贸日记9 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
民乐团扒谱机9 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记