关于VQ-GAN利用滑动窗口生成 高清图像

参考文章:VQGAN 论文与源码解读:前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充:所谓"高清",就是像素很多,比如,512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

(1)其实那个生成16x16的压缩的部分,这里还没有说,原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是,这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

(2)其实,这里说道的 sliding windows滑动窗口,其实就是 限定"上下文长度"的Transformer。而且,这里的窗口里面的输入、输出:只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的,应该就能明白这里的意思了。

相关推荐
Evand J37 分钟前
MATLAB程序演示与编程思路,相对导航,四个小车的形式,使用集中式扩展卡尔曼滤波(fullyCN-EKF)
人工智能·算法
知来者逆2 小时前
在与大语言模型交互中的礼貌现象:技术影响、社会行为与文化意义的多维度探讨
人工智能·深度学习·语言模型·自然语言处理·llm
xwz小王子4 小时前
Taccel:一个高性能的GPU加速视触觉机器人模拟平台
人工智能·机器人
深空数字孪生5 小时前
AI时代的数据可视化:未来已来
人工智能·信息可视化
Icoolkj5 小时前
探秘 Canva AI 图像生成器:重塑设计创作新范式
人工智能
魔障阿Q5 小时前
windows使用bat脚本激活conda环境
人工智能·windows·python·深度学习·conda
Wnq100725 小时前
巡检机器人数据处理技术的创新与实践
网络·数据库·人工智能·机器人·巡检机器人
Eric.Lee20216 小时前
数据集-目标检测系列- 冥想 检测数据集 close_eye>> DataBall
人工智能·目标检测·计算机视觉·yolo检测·眼睛开闭状态检测识别
胡乱儿起个名6 小时前
Relay算子注册(在pytorch.py端调用)
c++·人工智能·tvm·编译器·ai编译器
嘉图明7 小时前
《从数据殖民到算法正义:破解AI垄断的伦理与技术路径》
人工智能·算法