Sora 技术参考文献 - (6)Adversarial video generation on complex datasets

Sora 技术参考文献

-- Adversarial video generation on complex datasets

计划根据openai关于Sora介绍的参考文献,做一系列的技术介绍。

openai 关于Sora的介绍网址。 对于该文章的翻译和简介见文章

Adversarial video generation on complex datasets

论文链接

文章主要内容

生成模型在自然图像领域通过大规模数据的强有力利用,已经取得了生成高保真样本的进展。文章尝试将这一成功经验应用到视频建模领域。文章提出了一种模型,双视频鉴别器生成对抗网络(DVD-GAN),通过计算效率高的鉴别器分解方法,扩展到更长和更高分辨率的视频。在视频合成和视频预测的相关任务上进行评估,并在Kinetics-600数据集上达到了新的预测状态最先进的Fréchet Inception Distance(FID),以及在UCF-101数据集上达到了合成状态最先进的Inception Score(IS),同时在Kinetics-600上建立了一个强大的合成基线模型。

笔者总结

这篇文章是进行视频的生成。这篇文章的主要贡献在于:

  • 模型具有更高的计算效率,能够生产更清晰逼真的视频
  • 设计了两种判别器,分别判别单个图像生成的逼真程度,和视频时间维度的流畅性。
  • 两种判别器分别通过采样和下采样的方式,减少了计算量。
  • 提出了一种基于视频,进行预测未来视频桢的视频生成模型。这个生成的范式跟现在的SORA的应该挺像的了。基于已有的视频片段,预测未来视频桢。

模型

与之前的一些工作不同,本文章的生成器并不包含对前景、背景或运动(光流)的显式先验,即模型不需要输入前景图片、背景图片、运动流图片;相反,本文章依赖于一个高容量的神经网络以数据驱动的方式学习这些内容。

大白话说就是不需要输入其他图片,只需要根据随机数向量,即可生成视频。模型的生成能力主要依赖于神经网络中的参数,不依赖于外界条件。

文章提出的DVD-GAN模型架构如上图所示。左侧是视频生成器,右侧是判别器。

生成器根据高斯随机向量,以及一个类别向量,通过循环神经网络和ResNet生成视频桢序列。

判别器部分,通过使用两个判别器来解决训练过程中训练计算量的规模问题:一个空间鉴别器DS和一个时间鉴别器DT。DS通过随机采样k个全分辨率帧并单独评判它们来批评单帧内容和结构。文章中选择k=8。DS的最终得分是每帧得分的总和。时间鉴别器DT必须为G提供生成运动的学习信号。为了使模型可扩展,文章对整个视频应用空间下采样函数φ(·),并将其实出输入到DT。我们选择φ为2×2平均池化,使得判别器不处理整个视频的像素值。

用大白话来说就是,判别器分为两个部分DS和DT。DS负责判断生成的图像是否逼真;DT负责判断生成的视频是否流畅。DS是从视频中随机采样出8桢图片进行判别,从而减少计算复杂度。DT部分,首先将视频进行下采样,然后通过判别器,判别视频是否流畅,从而减少计算量,并使的这个判别器更专注于视频的流畅性,而不是图像内容的逼真程度。

此外,作者还提出了一种条件生成模型。模型架构如下图所示,模型基于现有的一些视频桢,预测未来的视频情况。

给定C个条件帧,修改后的DVD-GAN-FP通过一个与DS相同的深度残差网络单独传递每个帧。G和DS的残差块的(几乎)对称设计意味着,来自D风格残差块的每个输出在G中都有一个相同空间分辨率的相应中间张量。在每个块之后,每个条件帧的结果特征在通道维度上堆叠,并通过一个3×3的卷积和ReLU激活函数。所得的张量被用作G中相应块的卷积GRU的初始状态。请注意,帧条件堆栈降低了空间分辨率,而G则增加了分辨率。因此,条件帧的最小特征(经过最多层的特征)最早输入G,而较大的特征(经过较少处理的特征)则在最后输入G。DT作用于条件帧的拼接和G的输出,这意味着它不会接收到任何额外信息,指出前C帧是特殊的。然而,为了减少计算量,文章在真实或生成的数据上不对DS采样前C帧。最后,视频预测变体不依赖于任何类别信息,这使得模型能够直接与以前的艺术作品进行比较。这是通过将所有样本的类别ID设置为0来实现的。

相关推荐
童话名剑2 小时前
训练词嵌入(吴恩达深度学习笔记)
人工智能·深度学习·word2vec·词嵌入·负采样·嵌入矩阵·glove算法
桂花很香,旭很美3 小时前
智能体技术架构:从分类、选型到落地
人工智能·架构
HelloWorld__来都来了3 小时前
2026.1.30 本周学术科研热点TOP5
人工智能·科研
aihuangwu4 小时前
豆包图表怎么导出
人工智能·ai·deepseek·ds随心转
YMWM_4 小时前
深度学习中模型的推理和训练
人工智能·深度学习
中二病码农不会遇见C++学姐4 小时前
文明6-mod制作-游戏素材AI生成记录
人工智能·游戏
九尾狐ai5 小时前
从九尾狐AI案例拆解企业AI培训的技术实现与降本增效架构
人工智能
2501_948120155 小时前
基于RFID技术的固定资产管理软件系统的设计与开发
人工智能·区块链
(; ̄ェ ̄)。5 小时前
机器学习入门(十五)集成学习,Bagging,Boosting,Voting,Stacking,随机森林,Adaboost
人工智能·机器学习·集成学习
杀生丸学AI5 小时前
【物理重建】PPISP :辐射场重建中光度变化的物理合理补偿与控制
人工智能·大模型·aigc·三维重建·世界模型·逆渲染