猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
埃菲尔铁塔_CV算法19 分钟前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR19 分钟前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️25 分钟前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
好喜欢吃红柚子42 分钟前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
小馒头学python1 小时前
机器学习是什么?AIGC又是什么?机器学习与AIGC未来科技的双引擎
人工智能·python·机器学习
神奇夜光杯1 小时前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠1 小时前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
Debroon1 小时前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
羊小猪~~1 小时前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习
AI小杨1 小时前
【车道线检测】一、传统车道线检测:基于霍夫变换的车道线检测史诗级详细教程
人工智能·opencv·计算机视觉·霍夫变换·车道线检测