猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
冷冷清清中的风风火火15 分钟前
本地部署DeepSeek的硬件配置建议
人工智能·ai
sauTCc23 分钟前
RAG实现大致流程
人工智能·知识图谱
lqqjuly36 分钟前
人工智能驱动的自动驾驶:技术解析与发展趋势
人工智能·机器学习·自动驾驶
山东布谷科技官方1 小时前
AI大模型发展对语音直播交友系统源码开发搭建的影响
人工智能·实时音视频·交友
thinkMoreAndDoMore1 小时前
深度学习(2)-深度学习关键网络架构
人工智能·深度学习·机器学习
山海青风1 小时前
从零开始玩转TensorFlow:小明的机器学习故事 1
人工智能·机器学习·tensorflow
圣心1 小时前
Ollama 快速入门
开发语言·javascript·人工智能
小屁孩大帅-杨一凡1 小时前
如何实现使用DeepSeek的CV模型对管道内模糊、低光照或水渍干扰的图像进行去噪、超分辨率重建。...
图像处理·人工智能·opencv·计算机视觉·超分辨率重建
mengyoufengyu2 小时前
DeepSeek04-导出导入模型文件
人工智能·深度学习·deepseek
不一样的信息安全2 小时前
开启开源新时代:DeepSeek引领人工智能技术开放化
人工智能·开源