关于VQ-GAN利用滑动窗口生成 高清图像

参考文章:VQGAN 论文与源码解读:前Diffusion时代的高清图像生成模型 | 周弈帆的博客

概念补充:所谓"高清",就是像素很多,比如,512x512就比64x64要高清很多

请仔细琢磨上面的这几句话即可。

(1)其实那个生成16x16的压缩的部分,这里还没有说,原来是采用PixelCNN采样得到的这个16x16的压缩的块

-不过有一种可能就是,这个Transformer里面也会有一个bos_token用于采样第一个16x16的图像块。

(2)其实,这里说道的 sliding windows滑动窗口,其实就是 限定"上下文长度"的Transformer。而且,这里的窗口里面的输入、输出:只要你理解了原本Transformer.decoder里面的输入和输出是fixed length的,应该就能明白这里的意思了。

相关推荐
做科研的周师兄1 小时前
【机器学习入门】1.2 初识机器学习:从数据到智能的认知之旅
大数据·数据库·人工智能·python·机器学习·数据分析·机器人
JosieBook2 小时前
【人工智能】人工智能在企业中的应用
人工智能
技术与健康2 小时前
LLM实践系列:利用LLM重构数据科学流程04 - 智能特征工程
数据库·人工智能·重构
无风听海3 小时前
行向量和列向量在神经网络应用中的选择
人工智能·深度学习·神经网络·行向量·列向量
一点一木3 小时前
主流 AI 提示词优化工具推荐(2025 全面对比指南)
人工智能·openai·ai编程
全栈小53 小时前
【AI编程】如何快速通过AI IDE集成开发工具来生成一个简易留言板系统
ide·人工智能·ai编程
能力越小责任越小YA4 小时前
服务器(Linux)新账户搭建Pytorch深度学习环境
人工智能·pytorch·深度学习·环境搭建
小五1274 小时前
机器学习-线性回归
人工智能·机器学习
攻城狮7号4 小时前
昆仑万维开源 Matrix-3D大模型,正在开启“造物主”模式
人工智能·matrix-3d·昆仑万维开源大模型
A7bert7774 小时前
【YOLOv5部署至RK3588】模型训练→转换RKNN→开发板部署
c++·人工智能·python·深度学习·yolo·目标检测·机器学习