Sora 技术参考文献 - (6)Adversarial video generation on complex datasets

Sora 技术参考文献

-- Adversarial video generation on complex datasets

计划根据openai关于Sora介绍的参考文献,做一系列的技术介绍。

openai 关于Sora的介绍网址。 对于该文章的翻译和简介见文章

Adversarial video generation on complex datasets

论文链接

文章主要内容

生成模型在自然图像领域通过大规模数据的强有力利用,已经取得了生成高保真样本的进展。文章尝试将这一成功经验应用到视频建模领域。文章提出了一种模型,双视频鉴别器生成对抗网络(DVD-GAN),通过计算效率高的鉴别器分解方法,扩展到更长和更高分辨率的视频。在视频合成和视频预测的相关任务上进行评估,并在Kinetics-600数据集上达到了新的预测状态最先进的Fréchet Inception Distance(FID),以及在UCF-101数据集上达到了合成状态最先进的Inception Score(IS),同时在Kinetics-600上建立了一个强大的合成基线模型。

笔者总结

这篇文章是进行视频的生成。这篇文章的主要贡献在于:

  • 模型具有更高的计算效率,能够生产更清晰逼真的视频
  • 设计了两种判别器,分别判别单个图像生成的逼真程度,和视频时间维度的流畅性。
  • 两种判别器分别通过采样和下采样的方式,减少了计算量。
  • 提出了一种基于视频,进行预测未来视频桢的视频生成模型。这个生成的范式跟现在的SORA的应该挺像的了。基于已有的视频片段,预测未来视频桢。

模型

与之前的一些工作不同,本文章的生成器并不包含对前景、背景或运动(光流)的显式先验,即模型不需要输入前景图片、背景图片、运动流图片;相反,本文章依赖于一个高容量的神经网络以数据驱动的方式学习这些内容。

大白话说就是不需要输入其他图片,只需要根据随机数向量,即可生成视频。模型的生成能力主要依赖于神经网络中的参数,不依赖于外界条件。

文章提出的DVD-GAN模型架构如上图所示。左侧是视频生成器,右侧是判别器。

生成器根据高斯随机向量,以及一个类别向量,通过循环神经网络和ResNet生成视频桢序列。

判别器部分,通过使用两个判别器来解决训练过程中训练计算量的规模问题:一个空间鉴别器DS和一个时间鉴别器DT。DS通过随机采样k个全分辨率帧并单独评判它们来批评单帧内容和结构。文章中选择k=8。DS的最终得分是每帧得分的总和。时间鉴别器DT必须为G提供生成运动的学习信号。为了使模型可扩展,文章对整个视频应用空间下采样函数φ(·),并将其实出输入到DT。我们选择φ为2×2平均池化,使得判别器不处理整个视频的像素值。

用大白话来说就是,判别器分为两个部分DS和DT。DS负责判断生成的图像是否逼真;DT负责判断生成的视频是否流畅。DS是从视频中随机采样出8桢图片进行判别,从而减少计算复杂度。DT部分,首先将视频进行下采样,然后通过判别器,判别视频是否流畅,从而减少计算量,并使的这个判别器更专注于视频的流畅性,而不是图像内容的逼真程度。

此外,作者还提出了一种条件生成模型。模型架构如下图所示,模型基于现有的一些视频桢,预测未来的视频情况。

给定C个条件帧,修改后的DVD-GAN-FP通过一个与DS相同的深度残差网络单独传递每个帧。G和DS的残差块的(几乎)对称设计意味着,来自D风格残差块的每个输出在G中都有一个相同空间分辨率的相应中间张量。在每个块之后,每个条件帧的结果特征在通道维度上堆叠,并通过一个3×3的卷积和ReLU激活函数。所得的张量被用作G中相应块的卷积GRU的初始状态。请注意,帧条件堆栈降低了空间分辨率,而G则增加了分辨率。因此,条件帧的最小特征(经过最多层的特征)最早输入G,而较大的特征(经过较少处理的特征)则在最后输入G。DT作用于条件帧的拼接和G的输出,这意味着它不会接收到任何额外信息,指出前C帧是特殊的。然而,为了减少计算量,文章在真实或生成的数据上不对DS采样前C帧。最后,视频预测变体不依赖于任何类别信息,这使得模型能够直接与以前的艺术作品进行比较。这是通过将所有样本的类别ID设置为0来实现的。

相关推荐
小雷FansUnion1 小时前
深入理解MCP架构:智能服务编排、上下文管理与动态路由实战
人工智能·架构·大模型·mcp
资讯分享周1 小时前
扣子空间PPT生产力升级:AI智能生成与多模态创作新时代
人工智能·powerpoint
叶子爱分享2 小时前
计算机视觉与图像处理的关系
图像处理·人工智能·计算机视觉
鱼摆摆拜拜2 小时前
第 3 章:神经网络如何学习
人工智能·神经网络·学习
一只鹿鹿鹿2 小时前
信息化项目验收,软件工程评审和检查表单
大数据·人工智能·后端·智慧城市·软件工程
张较瘦_2 小时前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
cver1232 小时前
野生动物检测数据集介绍-5,138张图片 野生动物保护监测 智能狩猎相机系统 生态研究与调查
人工智能·pytorch·深度学习·目标检测·计算机视觉·目标跟踪
学技术的大胜嗷3 小时前
离线迁移 Conda 环境到 Windows 服务器:用 conda-pack 摆脱硬路径限制
人工智能·深度学习·yolo·目标检测·机器学习
还有糕手3 小时前
西南交通大学【机器学习实验10】
人工智能·机器学习
江瀚视野3 小时前
百度文心大模型4.5系列正式开源,开源会给百度带来什么?
人工智能