零样本从文本直接生成视频:Text2video-zero的试用和启发

前言

前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓,尽管几家当红的公司宣传自己的产品非常厉害,但实际上都面临或多或少的问题。

文生视频的难点

  • 可供训练的有效数据少:对于任何深度学习模型来说,数据质量和数量决定了它的性能上限。不同于语言模型或者视觉模型,这些模型训练的数据很容易就能在开源社区找到,并且质量和数量都较为可观。而文生视频模型训练需要的文本-视频对就没那么容易找到了。

  • 计算难度大: 视频数据比图片数据多了时间上的维度。假设已经有一批文本-视频对数据,文生视频模型的训练也只能用非常短的视频片段进行训练,因为越长的视频越难保证帧与帧之间的一致性和连贯性。

实现文生视频的方法

早期的生成对抗网络

文生视频是个非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 来实现。如VideoGan,是一个双通道模型,把视频抽象分成前景和背景,分别通过这两个通道把噪声转视频帧再合并到一块,是最早将GAN用于视频生成的框架。

虽然这些工作为文生视频奠定了基础,但它们的应用范围非常有限,仅限于低分辨率(大多都是128*128像素)以及视频中目标单一的情况。

近期的扩散模型

而近两年来,随着扩散模型的发展以及在图像领域取得的成就,一些研究者也逐渐把研究重心转移到扩散模型上来。因为之前调研使用过Text2Video-Zero这个模型,接下来就简要介绍一下这个模型及其效果。

顾名思义,Text2Video-Zero 是一种零样本模型,即无需使用任何 文本 - 视频对 数据,就能把文生图迁移到文生视频,因此可以直接使用stable diffusion相关的模型,如sd-1.5或sdxl等 。 整体思路可以概述如下:

  1. 从第二帧开始每一帧都不进行随机噪声采样,而是从前一帧变化来,通过一个运动向量叠加而成
  2. Unet的注意力机制修改为帧与帧之间的注意力机制

从论文中给出的例子来看,能够生成一些简单的视频 我也尝试生成一段简单的视频,效果还是有限的。细看会发现草的细节不够好,存在畸变,而且河流是简单的左右对称。虽然调整了采样率,但效果还是不太理想。

结论

从实际效果来看,目前的文生视频效果尚未达到生成电影级视频的能力。猜测接下来开源的一些模型可能聚焦用更好的方法捕捉视频帧之间的关联,从图像零样本迁移到视频,毕竟这才是真正的多模型大模型。而一批商业化的公司可能还会花费大量的人力财力去构建私有的高质量文本-视频数据,以提升视频在细节方面的效果,从而拉开与别人的差距。

相关推荐
墨风如雪2 小时前
告别“面目全非”!腾讯混元3D变身“建模艺术家”,建模效率直接起飞!
aigc
九年义务漏网鲨鱼2 小时前
【大模型学习 | MINIGPT-4原理】
人工智能·深度学习·学习·语言模型·多模态
元宇宙时间2 小时前
Playfun即将开启大型Web3线上活动,打造沉浸式GameFi体验生态
人工智能·去中心化·区块链
开发者工具分享2 小时前
文本音频违规识别工具排行榜(12选)
人工智能·音视频
产品经理独孤虾2 小时前
人工智能大模型如何助力电商产品经理打造高效的商品工业属性画像
人工智能·机器学习·ai·大模型·产品经理·商品画像·商品工业属性
老任与码3 小时前
Spring AI Alibaba(1)——基本使用
java·人工智能·后端·springaialibaba
蹦蹦跳跳真可爱5893 小时前
Python----OpenCV(图像増强——高通滤波(索贝尔算子、沙尔算子、拉普拉斯算子),图像浮雕与特效处理)
人工智能·python·opencv·计算机视觉
雷羿 LexChien3 小时前
从 Prompt 管理到人格稳定:探索 Cursor AI 编辑器如何赋能 Prompt 工程与人格风格设计(上)
人工智能·python·llm·编辑器·prompt
两棵雪松4 小时前
如何通过向量化技术比较两段文本是否相似?
人工智能
heart000_14 小时前
128K 长文本处理实战:腾讯混元 + 云函数 SCF 构建 PDF 摘要生成器
人工智能·自然语言处理·pdf