猜测了一个sora模型结构

如果是上述的这种结构,可以确定的是patch 的size (一个图像的小片)是固定大小的

那么调节一个视觉分辨率大小通过patchs的大小决定。

如图所示可以证明输入的时候图片没有本物理人为的分割为小片,是通过一个模型进行分割为

小片。

通过上面两个图也可以证明patchs 是后分的,且patch 大小是固定的

patchs 的大小决定了视觉分辨率。

这个模型整体分为 外围的扩散模型和中间的自回归模型两个部分下图可以证明

还有一点能证明使用了视觉自回归,就是后面的各种功能,比如给定一个图生成视频,这个时候

只需要扩散模型输入最后一步t方可像生成token 一样生成视频 最后输出方可。

一些输入图像以少生成多的都是自回归生成的 类似mask

总结就是 dif(扩散)模型 中间夹个vit模型 所以大部分人都

相关推荐
科士威传动5 分钟前
方形滚珠导轨如何保障高速定位精度?
人工智能·科技·机器人·自动化·制造
SmartBrain15 分钟前
洞察:阿里通义DeepResearch 技术
大数据·人工智能·语言模型·架构
声声codeGrandMaster28 分钟前
AI之模型提升
人工智能·pytorch·python·算法·ai
lpfasd1231 小时前
AI Phone下的各类App该何去何从
人工智能
玖日大大1 小时前
LangGraph 深度解析:构建强大智能体的新一代框架
人工智能·语言模型·架构·langchain
GISer_Jing1 小时前
Nano Banana:AI图像生成与编辑新标杆
前端·javascript·人工智能
新元代码2 小时前
Function Calling的现状和未来的发展
人工智能
jinxinyuuuus2 小时前
订阅指挥中心:数据可移植性、Schema设计与用户数据主权
数据仓库·人工智能
ASS-ASH2 小时前
视觉语言大模型Qwen3-VL-8B-Instruct概述
人工智能·python·llm·多模态·qwen·视觉语言模型·vlm
Xy-unu2 小时前
[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
论文阅读·人工智能·算法·机器学习·transformer·论文笔记·剪枝