文本转图像 学习笔记

VQGAN (Vector Quantized Generative Adversarial Network) 是一种基于 GAN 的生成模型,可以将图像或文本转换为高质量的图像。

VQ (Vector Quantization)是一种数据压缩技术,是指将连续数据表示为离散化的向量。输入的图像或文本被映射到 VQ 空间中的离散化向量表示,然后,离散化向量然后被送到 GAN 模型中进行图像生成。(参见上图的下半部分)在训练过程中,VQGAN 模型会优化两个损失函数:一个用于量化误差(即离散化向量和连续值之间的误差),另一个用于生成器和判别器之间的对抗损失。

GAN 是由生成器和判别器两个模型组成的,生成器负责生成图像,判别器负责判断生成的图像是否为真实的图像。在训练过程中,生成器和判别器相互博弈,不断优化各自的参数,以使生成的图像更接近真实图像。

原文链接:https://blog.csdn.net/qq_42208244/article/details/132889927

VQGAN理论加代码一对一详解,小白向解析-CSDN博客

相关推荐
中屹指纹浏览器19 分钟前
大模型赋能指纹浏览器:基于安全 GPT 的动态风控对抗与指纹生成技术
经验分享·笔记
QT 小鲜肉21 分钟前
【Linux命令大全】001.文件管理之gitview命令(实操篇)
linux·运维·服务器·chrome·笔记
t1987512839 分钟前
经典的KSVD图像字典学习
人工智能·学习·计算机视觉
Boxsc_midnight40 分钟前
【数字人学习之语音合成】Fun-CosyVoice3-0.5B-2512的windows系统中本地部署的方法
windows·学习·cosyvoice3
TechPioneer_lp1 小时前
27届暑期实习内推:网易美团京东快手等
数据结构·c++·人工智能·笔记·机器学习·面试
lkbhua莱克瓦242 小时前
基础-MySQL概述
java·开发语言·数据库·笔记·mysql
龘龍龙2 小时前
Python基础学习(七)
开发语言·python·学习
Dream Algorithm2 小时前
《换手率》
笔记·金融
李小星同志2 小时前
Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction论文学习
学习
嵌入式-老费3 小时前
外壳3D结构设计(学习Freecad)
学习