如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的
那么调节一个视觉分辨率大小通过patchs的大小决定。
如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为
小片。
通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的
patchs 的大小决定了视觉分辨率。
这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明
还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候
只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。
一些输入图像以少生成多的都是自回归生成的 类似mask
总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都