猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
初级炼丹师(爱说实话版)15 小时前
2025算法八股——深度学习——优化器小结
人工智能·深度学习·算法
开开心心_Every15 小时前
免费语音合成工具:66种音色随心选
人工智能·面试·java-ee·计算机外设·电脑·maven·excel
Pocker_Spades_A15 小时前
论文精读(五):面向链接预测的知识图谱表示学习方法综述
人工智能·链表·知识图谱
AI算法工程师Moxi15 小时前
人工智能在医学图像中的应用:从机器学习到深度学习
人工智能·深度学习·机器学习
Billy_Zuo16 小时前
人工智能机器学习——聚类
人工智能·机器学习·聚类
大熊背16 小时前
怎样利用AE统计数据优化安防芯片ISP的图像质量?
人工智能·自动曝光
百度智能云技术站16 小时前
AI 云再进化,百度智能云新技术与产品全景解读
人工智能·百度
Christo316 小时前
TFS-2023《Fuzzy Clustering With Knowledge Extraction and Granulation》
人工智能·算法·机器学习·支持向量机
Ai尚研修-贾莲16 小时前
全链路自主构建智慧科研写作系统——融合LLM语义理解、多智能体任务协同与n8n自动化工作流构建
人工智能·agent·智能体·deepseek·n8n·智慧科研写作·llm语义理解
过河卒_zh156676616 小时前
AI内容标识新规实施后,大厂AI用户协议有何变化?(二)百度系
人工智能·算法·aigc·算法备案·生成合成类算法备案