猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
Zero_to_zero123410 分钟前
Claude code系列(一):claude安装、入门及基础操作指令
人工智能·python
szcsun510 分钟前
机器学习(二)-线性回归实战
人工智能·机器学习·线性回归
普通网友13 分钟前
Android16 adb投屏工具Scrcpy介绍。
人工智能
搬砖者(视觉算法工程师)15 分钟前
语义分割:基于 TensorFlow 对 FCN 与迁移学习的探究
人工智能
cookqq25 分钟前
基于Spring AI+本地大模型+MongoDB实现私密化与记忆能力-企业级免费大模型应用
人工智能·mongodb·spring
云卓SKYDROID31 分钟前
无人机飞行模式详解
人工智能·无人机·高科技·云卓科技·技术解析、
数字游民95271 小时前
小程序上新,猜对了么更新110组素材
人工智能·ai·小程序·ai绘画·自媒体·数字游民9527
泰迪智能科技1 小时前
分享|联合编写教材入选第二批“十四五”职业教育国家规划教材名单
大数据·人工智能
模型时代1 小时前
热力学计算技术或将大幅降低AI图像生成能耗
人工智能
企业老板ai培训1 小时前
从九尾狐AI实战案例拆解AI短视频获客的架构设计:智能矩阵如何提升企业效率?
人工智能