零样本从文本直接生成视频:Text2video-zero的试用和启发

前言

前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓,尽管几家当红的公司宣传自己的产品非常厉害,但实际上都面临或多或少的问题。

文生视频的难点

  • 可供训练的有效数据少:对于任何深度学习模型来说,数据质量和数量决定了它的性能上限。不同于语言模型或者视觉模型,这些模型训练的数据很容易就能在开源社区找到,并且质量和数量都较为可观。而文生视频模型训练需要的文本-视频对就没那么容易找到了。

  • 计算难度大: 视频数据比图片数据多了时间上的维度。假设已经有一批文本-视频对数据,文生视频模型的训练也只能用非常短的视频片段进行训练,因为越长的视频越难保证帧与帧之间的一致性和连贯性。

实现文生视频的方法

早期的生成对抗网络

文生视频是个非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 来实现。如VideoGan,是一个双通道模型,把视频抽象分成前景和背景,分别通过这两个通道把噪声转视频帧再合并到一块,是最早将GAN用于视频生成的框架。

虽然这些工作为文生视频奠定了基础,但它们的应用范围非常有限,仅限于低分辨率(大多都是128*128像素)以及视频中目标单一的情况。

近期的扩散模型

而近两年来,随着扩散模型的发展以及在图像领域取得的成就,一些研究者也逐渐把研究重心转移到扩散模型上来。因为之前调研使用过Text2Video-Zero这个模型,接下来就简要介绍一下这个模型及其效果。

顾名思义,Text2Video-Zero 是一种零样本模型,即无需使用任何 文本 - 视频对 数据,就能把文生图迁移到文生视频,因此可以直接使用stable diffusion相关的模型,如sd-1.5或sdxl等 。 整体思路可以概述如下:

  1. 从第二帧开始每一帧都不进行随机噪声采样,而是从前一帧变化来,通过一个运动向量叠加而成
  2. Unet的注意力机制修改为帧与帧之间的注意力机制

从论文中给出的例子来看,能够生成一些简单的视频 我也尝试生成一段简单的视频,效果还是有限的。细看会发现草的细节不够好,存在畸变,而且河流是简单的左右对称。虽然调整了采样率,但效果还是不太理想。

结论

从实际效果来看,目前的文生视频效果尚未达到生成电影级视频的能力。猜测接下来开源的一些模型可能聚焦用更好的方法捕捉视频帧之间的关联,从图像零样本迁移到视频,毕竟这才是真正的多模型大模型。而一批商业化的公司可能还会花费大量的人力财力去构建私有的高质量文本-视频数据,以提升视频在细节方面的效果,从而拉开与别人的差距。

相关推荐
rengang6610 分钟前
软件工程新纪元:AI协同编程架构师的修养与使命
人工智能·软件工程·ai编程·ai协同编程架构师
IT_陈寒22 分钟前
Python+AI实战:用LangChain构建智能问答系统的5个核心技巧
前端·人工智能·后端
亚马逊云开发者39 分钟前
Amazon Bedrock AgentCore Memory:亚马逊云科技的托管记忆解决方案
人工智能
言之。42 分钟前
Chroma 开源的 AI 应用搜索与检索数据库(即向量数据库)
数据库·人工智能·开源
tomlone1 小时前
《AI的未来:从“召唤幽灵”到学会反思》
人工智能
编码浪子1 小时前
对LlamaFactory的一点见解
人工智能·机器学习·数据挖掘
长桥夜波1 小时前
【第十八周】机器学习笔记07
人工智能·笔记·机器学习
luoganttcc2 小时前
是凯恩斯主义主导 西方的经济决策吗
大数据·人工智能·金融·哲学
好奇龙猫2 小时前
AI学习:SPIN -win-安装SPIN-工具过程 SPIN win 电脑安装=accoda 环境-第五篇:代码修复]
人工智能·学习
远山枫谷2 小时前
如何通过nodean安装n8n以及可能遇到的问题
人工智能