猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
海特伟业15 分钟前
隧道调频广播覆盖的实现路径:隧道无线广播技术赋能行车安全升级,隧道汽车广播收音系统助力隧道安全管理升级
人工智能
CareyWYR21 分钟前
每周AI论文速递(250421-250425)
人工智能
追逐☞40 分钟前
机器学习(10)——神经网络
人工智能·神经网络·机器学习
winner88811 小时前
对抗学习:机器学习里的 “零和博弈”,如何实现 “双赢”?
人工智能·机器学习·gan·对抗学习
Elastic 中国社区官方博客1 小时前
使用 LangGraph 和 Elasticsearch 构建强大的 RAG 工作流
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
娃娃略1 小时前
【AI模型学习】双流网络——更强大的网络设计
网络·人工智能·pytorch·python·神经网络·学习
福尔摩东1 小时前
从零到精通:2025年最全大模型学习资源
人工智能·github
青橘MATLAB学习1 小时前
深度学习中的预训练与微调:从基础概念到实战应用全解析
人工智能·深度学习·微调·迁移学习·预训练·梯度消失·模型复用
高桐@BILL1 小时前
1.4 大模型应用产品与技术架构
人工智能·架构·agent
Ann1 小时前
Prompt Engineering:如何让大模型按要求“工作”
人工智能·llm