深度学习之GAN应用

1 GAN的应用(文本生成)

1.1 GAN为什么不适合文本任务?

​ GAN在2014年被提出之后,在图像生成领域取得了广泛的研究应用。然后在文本领域却一直没有很惊艳的效果。主要在于文本数据是离散数据,而GAN在应用于离散数据时存在以下几个问题:

  • GAN的生成器梯度来源于判别器对于正负样本的判别。然而,对于文本生成问题,RNN输出的是一个概率序列,然后取argmax。这会导致生成器Loss不可导。还可以站在另一个角度理解,由于是argmax,所以参数更新一点点并不会改变argmax的结果,这也使得GAN不适合离散数据。
  • GAN只能评估整个序列的loss,但是无法评估半句话,或者是当前生成单词对后续结果好坏的影响。
  • 如果不加argmax,那么由于生成器生成的都是浮点数值,而ground truth都是one-hot encoding,那么判别器只要判别生成的结果是不是0/1序列组成的就可以了。这容易导致训练崩溃。

1.2 seqGAN用于文本生成

​ seqGAN在GAN的框架下,结合强化学习来做文本生成。 模型示意图如下:

在文本生成任务,seqGAN相比较于普通GAN区别在以下几点:

  • 生成器不取argmax。
  • 每生成一个单词,则根据当前的词语序列进行蒙特卡洛采样生成完成的句子。然后将句子送入判别器计算reward。
  • 根据得到的reward进行策略梯度下降优化模型。

2 GAN在其他领域的应用

2.1 数据增广

​ GAN的良好生成特性近年来也开始被用于数据增广。以行人重识别为例,有许多GAN用于数据增广的工作1-4。行人重识别问题一个难点在于不同摄像头下拍摄的人物环境,角度差别非常大,导致存在较大的Domain gap。因此,可以考虑使用GAN来产生不同摄像头下的数据进行数据增广。以论文1为例,本篇paper提出了一个cycleGAN用于数据增广的方法。具体模型结构如下:

​ 对于每一对摄像头都训练一个cycleGAN,这样就可以实现将一个摄像头下的数据转换成另一个摄像头下的数据,但是内容(人物)保持不变。

在CVPR19中,9进一步提升了图像的生成质量,进行了"淘宝换衣"式的高质量图像生成(如下图),提供了更高质量的行人训练数据。

2.2 图像超分辨与图像补全

​ 图像超分辨与补全均可以作为图像翻译问题,该类问题的处理办法也大都是训练一个端到端的网络,输入是原始图片,输出是超分辨率后的图片,或者是补全后的图片。文献5利用GAN作为判别器,使得超分辨率模型输出的图片更加清晰,更符合人眼主管感受。日本早稻田大学研究人员6提出一种全局+局部一致性的GAN实现图像补全,使得修复后的图像不仅细节清晰,且具有整体一致性。

2.3 语音领域

​ 相比于图像领域遍地开花,GAN在语音领域则应用相对少了很多。这里零碎的找一些GAN在语音领域进行应用的例子作为介绍。文献7提出了一种音频去噪的SEGAN,缓解了传统方法支持噪声种类稀少,泛化能力不强的问题。Donahue利用GAN进行语音增强,提升了ASR系统的识别率。

相关推荐
独隅2 分钟前
Android Studio 接入多种不同 AI 大模型进行开发的全面详细指南(Android Studio+AI)
android·人工智能·android studio
暴躁小师兄数据学院4 分钟前
【AI大数据工程师特训笔记】第02讲:PostgreSQL数据库生态全景
大数据·数据库·人工智能·postgresql
暴躁小师兄数据学院6 分钟前
【AI大模型应用开发工程师特训笔记】第04讲(第9章):文件目录操作
人工智能·笔记·python
天天讯通6 分钟前
机器人外呼行业适用性分析
人工智能·机器人
wechat_Neal7 分钟前
Google AAOS 2026发布深度解析与对中国车企出海的战略启示
人工智能·microsoft·华为·汽车
Cosolar9 分钟前
QwenPaw 源码学习指南
人工智能·架构·github
ST——Jess16 分钟前
年度行业趋势研究报告:泛心理数字化赛道“流日推演”的算法困境与高保真交互范式重构
人工智能·算法·架构
bupt_0123 分钟前
claudecode深入理解及源码解析(一):从 main.tsx 入口到对话闭环
人工智能·语言模型
2601_9578822423 分钟前
企业矩阵系统建设实践:优化内容资产与数字获客流程
大数据·人工智能·矩阵系统·企业数字化运营
GIS数据转换器25 分钟前
智慧能源管理平台
java·大数据·运维·人工智能·无人机