关于VQ-GAN利用滑动窗口生成高清图像

诚威_lol_中大努力中2024-12-26 13:20

参考文章：VQGAN 论文与源码解读：前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充：所谓"高清"，就是像素很多，比如，512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

（1）其实那个生成16x16的压缩的部分，这里还没有说，原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是，这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

（2）其实，这里说道的 sliding windows滑动窗口，其实就是限定"上下文长度"的Transformer。而且，这里的窗口里面的输入、输出：只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的，应该就能明白这里的意思了。

上一篇：在 macOS 和 Windows 平台上使用 SVN 的完整指南20241225

下一篇：【C语言】结构体模块化编程

关于VQ-GAN利用滑动窗口生成 高清图像

关于VQ-GAN利用滑动窗口生成高清图像