(2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像生成和编辑:综述

【本文为我在去年完成的综述,因某些原因未能及时投稿,但本文仍能为想要全面了解文本到图像的生成和编辑的学习者提供可靠的参考。目前本文已投稿 ACM Computing Surveys。

完整内容可在如下链接获取,或在 Q 群群文件获取。 中文版为论文初稿,英文版有适量改动。

链接: https://pan.baidu.com/s/19FSRXH4TxlqgE3rgjuXDDg?pwd=y3gj 提取码: y3gj

论文地址:https://arxiv.org/abs/2505.02527

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

Text to Image Generation and Editing: A Survey

目录

[0. 摘要](#0. 摘要)

[1. 简介](#1. 简介)

[1.1 综述对比(表)](#1.1 综述对比(表))

[1.2 本文框架 (图)](#1.2 本文框架 (图))

[1.3 文本到图像生成 (图)](#1.3 文本到图像生成 (图))

[1.4 文本到图像编辑 (图)](#1.4 文本到图像编辑 (图))

[1.5 模型对比 (表)](#1.5 模型对比 (表))

[1.6 性能对比(表)](#1.6 性能对比(表))


0. 摘要

文本到图像生成(T2I)指的是模型在文本提示的引导下,生成符合文本描述的高质量图像。在过去的几年,T2I 引起了人们的广泛关注,涌现了无数的作品。在本综述中,我们综合性的回顾了从 2021 到 2024 进行的 141 项研究。

  • 首先,我们介绍了 T2I 的四个基础模型架构(Autoregression,Non-autoregression,GAN 和Diffusion)以及常用的关键技术(Autoencoder,Attention 和无分类器引导 )。
  • 其次,我们就 T2I 生成和 T2I 编辑两个方向系统地对比了这些研究的方法,包括它们使用的编码器以及关键技术。
  • 此外,我们还并排对比了这些研究的性能,从数据集,评估指标、训练资源以及推断速度等方面。
  • 除了四个基础模型,我们还调查了T2I的其他研究,例如基于能量的模型以及近期的 Mamba 和多模态。我们还调查了 T2I 可能的社会影响并给出了相应的解决措施。
  • 最后,我们提出了提高T2I模型能力以及未来可能发展方向的独特见解。

总之,我们的综述是第一篇系统且全面的T2I的综合性概述,旨在为未来的研究人员提供了一个有价值的指南,并激励这一领域的持续进步。

1. 简介

随着生成式模型的发展,文本到图像生成(T2I)也得到了极大的发展,涌现了无数的工作。我们的综述为研究人员提供了一个整体的视角,包括对社区已有的重要工作的对比以及一些新兴的研究方向,以此来帮助研究人员了解T2I领域的发展。

本综述所调查的 T2I 论文的选取标准为:

  • 我们调查 2021~2024 年的论文;
  • 我们调查社区中高度关注的T2I论文及其后续工作,例如:LDM,Imagen,DALL-E,Cogview以及 Pixart 等;
  • 我们调查来自会议的顶级论文中的T2I论文;
  • 我们调查根据前面的标准选取的文章中引用的(进行了对比或在相关工作中提到)T2I论文;
  • 在起草本综述时,我们关注 arXiv 中最新的令人感兴趣的 T2 I论文,其中部分文章在完成本文时已被会议收录。详见表 2。

之前的 T2I 综述,通常只涉及单个基础模型的调查;如 GAN 或者 Diffusion。虽然也有一些综述也调查了多个基础模型,但与我们的综述相比,不够全面:

  • 它们调查的文献数量太少,
  • 它们未调查近期的一些研究,例如Mamba,
  • 它们的对比不够充分,我们的调查使用的并排对比(见表2和表3)使不同模型的差异一目了然,
  • 相比于这些综述,我们的综述对社会影响及解决办法做出了详尽的调查,
  • 立足于已有文献,我们的综述指出了更多的未来研究方向。详细对比见表 1。

1.1 综述对比 (表)

1.2 本文框架 (图)

1.3 文本到图像生成 (图)

1.4 文本到图像编辑 (图)

1.5 模型对比 (表)

1.6 性能对比(表)

相关推荐
就决定是你啦!13 分钟前
深入解析 Vision Transformer (ViT) 与其在计算机视觉中的应用
深度学习·计算机视觉·transformer
泡芙萝莉酱1 小时前
各省份发电量数据(2005-2022年)-社科数据
大数据·人工智能·深度学习·数据挖掘·数据分析·毕业论文·数据统计
想要成为计算机高手4 小时前
Helix:一种用于通用人形控制的视觉语言行动模型
人工智能·计算机视觉·自然语言处理·大模型·vla
Mory_Herbert4 小时前
5.1 神经网络: 层和块
人工智能·深度学习·神经网络
知来者逆6 小时前
在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨
人工智能·深度学习·语言模型·自然语言处理·llm
IT猿手8 小时前
基于 Q-learning 的城市场景无人机三维路径规划算法研究,可以自定义地图,提供完整MATLAB代码
深度学习·算法·matlab·无人机·强化学习·qlearning·无人机路径规划
魔障阿Q10 小时前
windows使用bat脚本激活conda环境
人工智能·windows·python·深度学习·conda
Eric.Lee202110 小时前
数据集-目标检测系列- 冥想 检测数据集 close_eye>> DataBall
人工智能·目标检测·计算机视觉·yolo检测·眼睛开闭状态检测识别
shadowtalon12 小时前
基于CNN的猫狗图像分类系统
人工智能·深度学习·神经网络·机器学习·计算机视觉·分类·cnn
蹦蹦跳跳真可爱58912 小时前
Python----神经网络(《Deep Residual Learning for Image Recognition》论文和ResNet网络结构)
人工智能·python·深度学习·神经网络