猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
还有糕手13 分钟前
西南交通大学【机器学习实验2】
人工智能·机器学习
jndingxin15 分钟前
OpenCV CUDA模块设备层-----在 GPU 上执行类似于 std::copy 的操作函数warpCopy()
人工智能·opencv·计算机视觉
weixin_3776348417 分钟前
【数据增强】精细化贴图数据增强
人工智能·目标检测·贴图
老A技术联盟21 分钟前
超实用的Cursor使用技巧之案列分析-教你基于Cursor零代码开发一个chrome插件
人工智能·cursor
慧星云25 分钟前
ComfyUI工作流 :一键换背景体验不同场景
人工智能
程序员的小马甲27 分钟前
如何编写AI提示词
人工智能·程序员·产品经理
算家计算28 分钟前
4 位量化 + FP8 混合精度:ERNIE-4.5-0.3B-Paddle本地部署,重新定义端侧推理效率
人工智能·开源
晓131330 分钟前
OpenCV篇——项目(二)OCR文档扫描
人工智能·python·opencv·pycharm·ocr
小白狮ww33 分钟前
VASP 教程:VASP 机器学习力场微调
人工智能·深度学习·机器学习
AIGC包拥它34 分钟前
提示技术系列——链式提示
人工智能·python·langchain·prompt