关于VQ-GAN利用滑动窗口生成 高清图像

参考文章:VQGAN 论文与源码解读:前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充:所谓"高清",就是像素很多,比如,512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

(1)其实那个生成16x16的压缩的部分,这里还没有说,原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是,这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

(2)其实,这里说道的 sliding windows滑动窗口,其实就是 限定"上下文长度"的Transformer。而且,这里的窗口里面的输入、输出:只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的,应该就能明白这里的意思了。

相关推荐
Scabbards_3 分钟前
Canny 边缘检测
人工智能·算法·计算机视觉
szboy200315 分钟前
AI大模型DreamShaper XL v2系列分享,适用于Stable Diffusion和ComfyUI
图像处理·人工智能·python·ai作画·stable diffusion·视觉检测
Cacciatore->16 分钟前
Sklearn 中的逻辑回归
人工智能·python·机器学习·逻辑回归·scikit-learn·sklearn
Luzem031921 分钟前
使用PyTorch实现逻辑回归:从训练到模型保存与加载
人工智能·pytorch·逻辑回归
Francek Chen22 分钟前
【现代深度学习技术】深度学习计算 | 层和块
人工智能·pytorch·深度学习·神经网络·层和块
佛州小李哥23 分钟前
在亚马逊云科技上用Stable Diffusion 3.5 Large生成赛博朋克风图片(下)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
云起无垠29 分钟前
第84期 | GPTSecurity周报
人工智能·gpt·aigc
CS创新实验室1 小时前
《机器学习数学基础》补充资料:贝叶斯分类器
人工智能·机器学习
Naion1 小时前
吴恩达深度学习——深层神经网络
人工智能·深度学习·神经网络
盼小辉丶1 小时前
遗传算法与深度学习实战(32)——生成对抗网络详解与实现
人工智能·深度学习·生成对抗网络