猜测了一个sora模型结构

东方佑2024-02-28 17:09

如果是上述的这种结构，可以确定的是patch 的size （一个图像的小片）是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片，是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的，且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归，就是后面的各种功能，比如给定一个图生成视频，这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频最后输出方可。

一些输入图像以少生成多的都是自回归生成的类似mask

总结就是 dif（扩散）模型中间夹个vit模型所以大部分人都

上一篇：C++知识点总结(22)：模拟算法

下一篇：MyBatis-Plus 效能提升秘籍：掌握这些注解，事半功倍！

热门推荐

01UV安装并设置国内源 02KGG转MP3工具|非KGM文件|解密音频 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 062025最新国内服务器可用docker源仓库地址大全（2025年8月更新）07TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09全球最强模型Grok4，国内已可免费使用！（附教程）10TRAE Rules 实践：为项目配置 6A 工作流