猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
Michelle80236 分钟前
23大数据 数据挖掘复习1
大数据·人工智能·数据挖掘
Serverless 社区1 小时前
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
人工智能·阿里云·云原生·serverless·云计算
IT_陈寒1 小时前
Python开发者必看!10个高效数据处理技巧让你的Pandas代码提速300%
前端·人工智能·后端
新智元1 小时前
全球 AI 视频大战升级!「中国版 Sora」Vidu Q2 参考生月底发布,能力对标 Sora 2
人工智能·openai
新智元2 小时前
刚刚,Figure 03 惊天登场!四年狂造 10 万台,人类保姆集体失业
人工智能·openai
万猫学社2 小时前
我们为什么需要Agent?
人工智能
共绩算力2 小时前
OpenAI Whisper 语音识别模型:技术与应用全面分析
人工智能·whisper·语音识别·共绩算力
工藤学编程3 小时前
零基础学AI大模型之Stream流式输出实战
人工智能
不良人龍木木3 小时前
机器学习-常用库
人工智能·机器学习