关于VQ-GAN利用滑动窗口生成 高清图像

参考文章:VQGAN 论文与源码解读:前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充:所谓"高清",就是像素很多,比如,512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

(1)其实那个生成16x16的压缩的部分,这里还没有说,原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是,这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

(2)其实,这里说道的 sliding windows滑动窗口,其实就是 限定"上下文长度"的Transformer。而且,这里的窗口里面的输入、输出:只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的,应该就能明白这里的意思了。

相关推荐
kalvin_y_liu1 天前
Lumi 具神智能机器人 SDK说明和ACT算法中的学习与推理
人工智能·ai·ros
阿里云大数据AI技术1 天前
云栖实录 | 阿里云助力金山办公打造智能搜索新标杆:WPS云文档搜索技术全面升级
人工智能·elasticsearch·搜索引擎
koo3641 天前
李宏毅机器学习笔记33
人工智能·笔记·机器学习
无风听海1 天前
神经网络之密集的词向量如何能够代表稀疏的词向量
人工智能·神经网络·机器学习
文火冰糖的硅基工坊1 天前
[人工智能-大模型-74]:模型层技术 - 模型训练六大步:③神经网络,预测输出:基本功能与对应的基本组成函数
人工智能·深度学习·神经网络
mwq301231 天前
RLHF-奖励模型RM 的“引擎”:Pairwise Loss 梯度计算详解
人工智能
亚远景aspice1 天前
亚远景热烈祝贺保隆科技通过ASPICE CL2评估
大数据·人工智能·物联网
苍何1 天前
这款国产智能编码工具,竟然登顶全球TOP3!
人工智能
许泽宇的技术分享1 天前
提示词工程完全指南:从入门到精通的AI对话艺术 —— 用一句话驯服千亿参数的“大脑“
人工智能
淡漠的蓝精灵1 天前
深度解析Weights & Biases:让AI实验管理变得如此简单
人工智能·其他·机器学习