(2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像生成和编辑:综述

【本文为我在去年完成的综述,因某些原因未能及时投稿,但本文仍能为想要全面了解文本到图像的生成和编辑的学习者提供可靠的参考。目前本文已投稿 ACM Computing Surveys。

完整内容可在如下链接获取,或在 Q 群群文件获取。 中文版为论文初稿,英文版有适量改动。

链接: https://pan.baidu.com/s/19FSRXH4TxlqgE3rgjuXDDg?pwd=y3gj 提取码: y3gj

论文地址:https://arxiv.org/abs/2505.02527

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

Text to Image Generation and Editing: A Survey

目录

[0. 摘要](#0. 摘要)

[1. 简介](#1. 简介)

[1.1 综述对比(表)](#1.1 综述对比(表))

[1.2 本文框架 (图)](#1.2 本文框架 (图))

[1.3 文本到图像生成 (图)](#1.3 文本到图像生成 (图))

[1.4 文本到图像编辑 (图)](#1.4 文本到图像编辑 (图))

[1.5 模型对比 (表)](#1.5 模型对比 (表))

[1.6 性能对比(表)](#1.6 性能对比(表))


0. 摘要

文本到图像生成(T2I)指的是模型在文本提示的引导下,生成符合文本描述的高质量图像。在过去的几年,T2I 引起了人们的广泛关注,涌现了无数的作品。在本综述中,我们综合性的回顾了从 2021 到 2024 进行的 141 项研究。

  • 首先,我们介绍了 T2I 的四个基础模型架构(Autoregression,Non-autoregression,GAN 和Diffusion)以及常用的关键技术(Autoencoder,Attention 和无分类器引导 )。
  • 其次,我们就 T2I 生成和 T2I 编辑两个方向系统地对比了这些研究的方法,包括它们使用的编码器以及关键技术。
  • 此外,我们还并排对比了这些研究的性能,从数据集,评估指标、训练资源以及推断速度等方面。
  • 除了四个基础模型,我们还调查了T2I的其他研究,例如基于能量的模型以及近期的 Mamba 和多模态。我们还调查了 T2I 可能的社会影响并给出了相应的解决措施。
  • 最后,我们提出了提高T2I模型能力以及未来可能发展方向的独特见解。

总之,我们的综述是第一篇系统且全面的T2I的综合性概述,旨在为未来的研究人员提供了一个有价值的指南,并激励这一领域的持续进步。

1. 简介

随着生成式模型的发展,文本到图像生成(T2I)也得到了极大的发展,涌现了无数的工作。我们的综述为研究人员提供了一个整体的视角,包括对社区已有的重要工作的对比以及一些新兴的研究方向,以此来帮助研究人员了解T2I领域的发展。

本综述所调查的 T2I 论文的选取标准为:

  • 我们调查 2021~2024 年的论文;
  • 我们调查社区中高度关注的T2I论文及其后续工作,例如:LDM,Imagen,DALL-E,Cogview以及 Pixart 等;
  • 我们调查来自会议的顶级论文中的T2I论文;
  • 我们调查根据前面的标准选取的文章中引用的(进行了对比或在相关工作中提到)T2I论文;
  • 在起草本综述时,我们关注 arXiv 中最新的令人感兴趣的 T2 I论文,其中部分文章在完成本文时已被会议收录。详见表 2。

之前的 T2I 综述,通常只涉及单个基础模型的调查;如 GAN 或者 Diffusion。虽然也有一些综述也调查了多个基础模型,但与我们的综述相比,不够全面:

  • 它们调查的文献数量太少,
  • 它们未调查近期的一些研究,例如Mamba,
  • 它们的对比不够充分,我们的调查使用的并排对比(见表2和表3)使不同模型的差异一目了然,
  • 相比于这些综述,我们的综述对社会影响及解决办法做出了详尽的调查,
  • 立足于已有文献,我们的综述指出了更多的未来研究方向。详细对比见表 1。

1.1 综述对比 (表)

1.2 本文框架 (图)

1.3 文本到图像生成 (图)

1.4 文本到图像编辑 (图)

1.5 模型对比 (表)

1.6 性能对比(表)

相关推荐
张二娃同学11 分钟前
Claude Code 使用教程:下载安装、CC Switch 配置、MiniMax API 获取与启动实操
人工智能·windows·深度学习·github·claude code
V搜xhliang024642 分钟前
基于¹⁸F-FDG PET/CT的深度学习-影像组学-临床模型预测非小细胞肺癌脉管侵犯的价值
大数据·人工智能·python·深度学习·机器学习·机器人
XuecWu342 分钟前
原生多模态颠覆Scaling Law?解读语言“参数需求型”与视觉“数据需求型”核心差异
人工智能·深度学习·算法·计算机视觉·语言模型
angleboy81 小时前
【原创】如何WIN 10/11系统下解决YOLOv13训练异常的安装指南
人工智能·深度学习·yolo
ZhuNian的学习乐园1 小时前
LLM智能体调度:从ReAct到多智能体调度
人工智能·python·深度学习
小超同学你好1 小时前
LangGraph 25. 实战:Agent资源优化怎么做?用 State 与条件边管理预算、取证与模型档位(附 SRE 分诊 demo)
人工智能·深度学习·语言模型
xianluohuanxiang2 小时前
高精度气象:极端天气一来,零售最先出问题的不是客流,而是补货体系和损失控制
开发语言·人工智能·深度学习·机器学习·零售
d1z8882 小时前
(十八)32天GPU测试从入门到精通-TensorRT-LLM 部署与优化day16
人工智能·python·深度学习·gpu·tensorrt
深度学习lover3 小时前
<数据集>yolo微藻识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·微藻识别
冰西瓜6003 小时前
深度学习的数学原理(二十七)—— 掩码注意力
人工智能·深度学习