类Sora模型：解锁动态视觉艺术的密码

AI生成的本质：以"理解"为核心的底层逻辑

AI生成文字、图片、视频的核心前提，本质是模型对内容的"理解"------生成文字需先读懂文字语义，生成图片需先看懂图像特征，文生图则需同时吃透提示词与图像逻辑，视频生成同样离不开对视频内容的深度解析。

但"理解"本身难以精准定义，正如人工智能的智能边界模糊，我们无法断言其具备人类式的推理能力。模型层面的"理解"，更多停留在数学向量的维度：用向量重构文字、图片、视频的信息，以向量的相似度、关联度匹配作为判断理解的核心依据。当模型能基于提示词与学习内容输出对应成果时，我们便默认其具备了"理解"能力，这种理解虽与人类认知不同，却支撑起AI生成的全链路运转。

视频生成的突破：从规律捕捉到世界模拟的探索

在视觉生成领域，模型的可控性始终是关键挑战，而视频生成模型更被赋予"世界模拟器"的潜力。这种模拟能力并非源于模型参透物理原理，而是依托海量视频数据的训练------当模型接收大量附带文字描述的视频素材，便在数据中捕捉现实规律：比如人物的头与躯干必然相连，而非割裂分布，这并非模型理解物理规则，只是从数据中提炼出符合现实的关联模式。

随着文字条件扩散模型在视频、图片领域的应用，结合Transformer架构的空间处理能力，生成式模型在视频领域的表现持续突破。Diffusion Models、Autoregressive Transformers等模型已在细分场景崭露头角，但大多局限于窄类别或短时视频，而Sora的核心目标，正是打破这些限制，实现时长、分辨率、宽高比全维度自由的通用视频生成，为视频生成技术打开全新想象空间。

大家可以结合我之前写的文章揭秘Transformer架构设计 1、揭秘Transformer架构设计 2（补全版）进一步了解R=Transformer架构。

技术核心：Patch与Token，视觉信息的结构化革命

这一突破的关键在于对视觉信息的结构化处理，核心便是"patch"技术------将视觉内容拆解为可量化的块，这一思路与LLM的token机制异曲同工：LLM凭借文本token实现高效拓展，Sora则将视觉patch 作为核心载体，既延续了ViT模型中patch 在视觉领域的有效性，又解决了传统扩散模型在文生图时未采用patch的局限，让视觉信息能以高可扩展的向量形式被模型处理。

面对视频生成，模型需先理解视频的时间与空间关联，而ViViT（视频领域的Vision Transformer） 为此提供了技术支撑。2021年诞生的ViViT，在2020年ViT 处理单张图片的基础上，针对视频的时空特性设计了两种patch切割方式：

第一种是忽略时间序列，仅切割单帧图片的空间patch，适用于静态场景；

第二种是将多帧图片合并为立方体patch，兼顾空间位置与时间关联，即便面对高速运动的画面，也能通过立方体patch捕捉物体的运动轨。

第二种也正是Sora选择此类切割方式的核心原因，为视频的精准理解与生成筑牢基础。

ViT的架构图：

关于Patch概念、ViT模型详解，可以去看下我之前写的文章浅谈多模态领域的Transformer。

生成逻辑：从向量压缩到像素还原的完整闭环

模型理解视频的核心逻辑，是将视频转化为patch向量，通过向量间的相似度计算、自注意力机制，识别视频中的物体、运动轨迹，再结合提示词完成训练与生成。这一过程本质是对视频的压缩：将冗余的像素信息转化为低维向量，同时保留时间与空间的关联性，再通过解码器将向量还原为像素空间的视频内容，形成从输入到输出的完整闭环。

而Sora作为扩散型Transformer，其生成逻辑更具创新性：以随机雪花图（对应视频帧）为初始状态，根据文字提示词，通过扩散过程逐步消除噪点，让每一帧画面变清晰，同时保证多帧画面的连续性，而非独立生成每一帧。这种处理方式，既依托Transformer"模型越大效果越好"的特性，又破解了传统生成方式中画面割裂的难题，让长视频的连贯生成成为可能。

技术迭代：从3D-UNet到Transformer，破解视频生成瓶颈

回溯视频生成技术的发展，2022年的视频扩散模型（Video Diffusion Models）是重要起点，它仅将文生图的2D-UNet升级为3D-UNet，把2D卷积核拓展为3D卷积核，但受限于卷积核的局部处理特性，仅能捕捉小范围的时空信息，难以应对长视频的复杂关联，因此只能生成短时视频，无法满足更复杂的生成需求。

Video Diffusion Models架构图：

2D-UNet升级为3D-UNet：

而Transformer架构在视频领域的应用，通过四种核心方法破解了这一难题：

一是空间与时间联合注意力机制，计算量最大但效果最佳，与Transformer处理文字的逻辑一致，实现patch向量的两两关联计算；

二是分解编码器（Factorised encoder），将编码器拆分为空间与时间两个模块，先聚合空间信息再处理时间关联，平衡计算量与效果；

三是分解自注意力机制（Factorised self-attention），在单层编码器中先后处理空间与时间信息，进一步提升信息整合的全面性；

四是分解点积注意力机制，虽极致压缩计算量，但效果难以保障。事实证明，扩散Transformer在视频生成中，计算量与效果呈正相关，这也为技术优化指明了方向，推动视频生成技术持续进阶。举例：输入1000个向量，同时给2个自注意力机制，一个自注意力机制只做空间上的信息处理，一个自注意力机制只做时间上的信息处理，2个自注意力机制输出的向量直接进行首位拼接成一个长向量，给linear层做信息融合，这个计算力是最小的，但是他的效果难以保证。

我们能发现diffusion transformer在扩散模型内使用transformer，做视频模型的效果越来越好，计算量越大，效果越好.

标杆实践：Imagen Video，级联式生成的体系化突破

2022年10月推出的Imagen Video，则构建了级联式的生成体系，以7个视频扩散模型（总计116亿参数）形成完整流水线：基础视频扩散模型先搭建视频的骨架与轮廓，生成低分辨率、低帧率的核心内容；后续的3个空间超分辨率（SSR）模型负责提升画面细节，3个时间超分辨率（TSR）模型优化帧间流畅度，各模块各司其职，既保证了生成效率，又能输出高质量、高帧率且连贯的视频。

这种分工明确的级联模式，让Imagen Video展现出强大的文本控制与风格表达能力，不仅实现了从低分辨率到高分辨率的平稳过渡，更在生成质量与效率之间找到平衡，成为视频生成领域的标志性成果，为后续技术迭代提供了极具价值的实践参考。