【Domain Generalization(3)】领域泛化与文生图之 -- QUOTA 任意领域中的生成物体的数量可控

系列文章目录


文章目录


快速讲清楚

  1. 任务是文生图,重点在生成图像中物体数量的准确性/可控性。
  2. 关键是 Any Domain,在两阶段(不同 Domain) 的数据上对新增的 token 优化/训练,实现领域泛化。
  3. 主要做法是
    • 1)在 SDXL 上实现 Textual Inversion,只学 style 和 count token,并增加了 counting loss 和 semantic loss,构造了 QUANT-Bench 数据。
    • 2)训练方法: 和 Textual Inversion 训练类似但 loss 不一样,主要是引入了两个 loss,即 YOLOv9 来计算 counting loss,以及 CLIP Image Encoder 来算 semantic loss 。
    • 3)训练数据:构造的 QUANT-Bench 数据有 Photo, Painting, Cartoon, 和 Sketch 4 个 Domain 的各种多数量物体,训练时先在 3 个 domain 的数据中训(meta-train domains),然后接着再在剩下的 1 个 domain 上训(meta-test domains)。

背景

  • 文生图在准确控制生成图像中对象数量,尤其是面对不同训练域(这里主要是不同的风格)的文本提示时,仍存在挑战。
  • 领域泛化(Domain Generalization)旨在创建能在未知域良好表现的模型,减少重新训练需求,在准确数量物体的图像生成方面尚未有领域泛化的相关探索。

动机

  • 个性化图像生成在处理对象数量的定量概念时面临独特挑战,现有方法如 Textual Inversion 和 DreamBooth 主要针对特定概念微调,难以精确控制对象数量。
  • 优化提示对应方法通常未解决对象数量的数值准确性问题,而域泛化研究中也缺乏对文本到图像扩散模型中域可泛化对象量化的关注,因此需要一种新方法来实现不同域中准确且可泛化的对象量化。

做法

  • 域可泛化对象量化:利用多个域进行训练,在训练阶段将域分为元训练域和元测试域,随机选择元测试域,基于预训练的扩散模型生成图像,测试阶段使用 YOLOv9 和 CLIP - S 评估生成图像中的对象数量和语义一致性,模拟真实场景中的域转移。
  • 双循环元优化
    • 内循环优化:针对元训练域优化提示参数,包含量化损失(利用可微计数函数 Count 计算估计对象数量与目标数量差值,基于 YOLOv9 估计)和 CLIP 匹配惩罚(确保图像语义与文本描述一致),通过两者之和计算内循环损失并更新提示参数。
    • 外循环优化:在元测试域上进一步优化提示参数,基于内循环更新后的参数生成图像计算损失,更新全局元参数,增强模型对未知域的泛化能力。
  • 可学习的量化和域标记 :在提示中引入可学习的 e c o u n t e_{count} ecount 和 e s t y l e e_{style} estyle 标记,初始提示格式为 "A s d s_{d} sd of N c",将标记嵌入与文本嵌入连接,训练时内循环在元训练域训练标记以捕获域特定提示特征,外循环通过调整元参数进行域泛化,测试时将测试文本提示中的域和量化信息与学习到的标记连接生成图像。

实验

  • 对比实验:与 SDXL 和 IoCo 进行对比,SDXL 作为基础模型,IoCo 仅在训练时学习量化标记且仅针对照片域。
  • 消融实验
    • 验证双循环元优化的作用,通过有无元优化对比,结果表明元优化在 MAE、RMSE 和 CLIP - S 指标上均有提升,增强了对象量化准确性和域泛化能力。
    • 验证可学习标记的作用,分别对比仅添加 e s t y l e e_{style} estyle、仅添加 e c o u n t e_{count} ecount 和同时添加两者的情况,结果显示同时使用两个标记时模型在各指标和域上性能最佳,提高了计数准确性和域适应性。
  • 具体评估指标
    • 量化准确性:使用基于 YOLOv9 的 MAE(平均绝对误差)和 RMSE(均方根误差),通过比较检测到的对象数量与目标数量计算。
    • 语义对齐评估:采用归一化的 CLIP 匹配分数 CLIP - S,定义为 C L I P − S ( p , x d ) = w ⋅ m a x ( c o s ( p , x d ) , 0 ) CLIP - S(p,x_{d}) = w\cdot max(cos(p,x_{d}),0) CLIP−S(p,xd)=w⋅max(cos(p,xd),0),其中 p p p 为提示, x d x_{d} xd 为生成图像。同时计算不同域上的平均性能评估模型一致性和适应性。
相关推荐
昵称好难啊3 分钟前
7.OpenClaw源码解析——可靠消息投递
人工智能·llm·agent
星辰AI打工人8 分钟前
手搓一个AI心理测评工具:FastAPI + DeepSeek + Streamlit 实战
人工智能
先锋部队11 分钟前
移动端 H5 接 AI 对话,软键盘弹起把输入框顶飞了
人工智能
程序员小远16 分钟前
自动化测试基础知识总结
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
weixin_3975740917 分钟前
企业智能体平台部署上线全流程:从环境搭建到智能体配置实操
人工智能
QZ1665609515921 分钟前
动态感知·全覆盖管控·符合司法要求:通用行业知形数据库风险监测合规落地方案
大数据·人工智能
Kobebryant-Manba28 分钟前
深度学习时候d2l报错和使用问题
人工智能·深度学习
HackTwoHub32 分钟前
Sqli-Scanner SQL注入SKILL自动化挖掘SQL注入,零依赖自动化SQL注入挖掘,赏金猎人
数据库·人工智能·sql·web安全·网络安全·自动化·系统安全
ofoxcoding32 分钟前
GLM 5.2 使用教程:API 接入配置、价格说明及 MIT 开源权重发布计划
ai·开源
GEO优化小助手36 分钟前
2026临沂GEO优化公司实测解析:3家本土机构适配性参考
大数据·人工智能·python