零样本从文本直接生成视频:Text2video-zero的试用和启发

前言

前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓,尽管几家当红的公司宣传自己的产品非常厉害,但实际上都面临或多或少的问题。

文生视频的难点

  • 可供训练的有效数据少:对于任何深度学习模型来说,数据质量和数量决定了它的性能上限。不同于语言模型或者视觉模型,这些模型训练的数据很容易就能在开源社区找到,并且质量和数量都较为可观。而文生视频模型训练需要的文本-视频对就没那么容易找到了。

  • 计算难度大: 视频数据比图片数据多了时间上的维度。假设已经有一批文本-视频对数据,文生视频模型的训练也只能用非常短的视频片段进行训练,因为越长的视频越难保证帧与帧之间的一致性和连贯性。

实现文生视频的方法

早期的生成对抗网络

文生视频是个非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 来实现。如VideoGan,是一个双通道模型,把视频抽象分成前景和背景,分别通过这两个通道把噪声转视频帧再合并到一块,是最早将GAN用于视频生成的框架。

虽然这些工作为文生视频奠定了基础,但它们的应用范围非常有限,仅限于低分辨率(大多都是128*128像素)以及视频中目标单一的情况。

近期的扩散模型

而近两年来,随着扩散模型的发展以及在图像领域取得的成就,一些研究者也逐渐把研究重心转移到扩散模型上来。因为之前调研使用过Text2Video-Zero这个模型,接下来就简要介绍一下这个模型及其效果。

顾名思义,Text2Video-Zero 是一种零样本模型,即无需使用任何 文本 - 视频对 数据,就能把文生图迁移到文生视频,因此可以直接使用stable diffusion相关的模型,如sd-1.5或sdxl等 。 整体思路可以概述如下:

  1. 从第二帧开始每一帧都不进行随机噪声采样,而是从前一帧变化来,通过一个运动向量叠加而成
  2. Unet的注意力机制修改为帧与帧之间的注意力机制

从论文中给出的例子来看,能够生成一些简单的视频 我也尝试生成一段简单的视频,效果还是有限的。细看会发现草的细节不够好,存在畸变,而且河流是简单的左右对称。虽然调整了采样率,但效果还是不太理想。

结论

从实际效果来看,目前的文生视频效果尚未达到生成电影级视频的能力。猜测接下来开源的一些模型可能聚焦用更好的方法捕捉视频帧之间的关联,从图像零样本迁移到视频,毕竟这才是真正的多模型大模型。而一批商业化的公司可能还会花费大量的人力财力去构建私有的高质量文本-视频数据,以提升视频在细节方面的效果,从而拉开与别人的差距。

相关推荐
财经资讯数据_灵砚智能几秒前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月21日
人工智能·python·信息可视化·自然语言处理·ai编程
电子科技圈3 分钟前
IAR作为Qt Group独立BU携两项重磅汽车电子应用开发方案首秀北京车展
开发语言·人工智能·汽车·软件工程·软件构建·代码规范·设计规范
Axis tech5 分钟前
Xsens:使用惯性动捕技术研究更安全的足球运动训练
人工智能
淹死在鱼塘的程序猿6 分钟前
🚀 告别"一次性聊天":揭秘让 AI 智能体越用越聪明的秘密武器 —— Skills
前端·人工智能·agent
醉卧考场君莫笑18 分钟前
NLP(正向,逆向,双向匹配法分词及代码实现)
人工智能·自然语言处理·easyui
拓朗工控25 分钟前
视觉革命:独立显卡工控机在医疗领域的深度应用
人工智能·智慧医疗·工控机
victory043128 分钟前
2026年4月22日 Malicious Finetuning for LLM via Steganography 解读 复现要点
人工智能
Python私教40 分钟前
Hermes Agent 技能系统:让 AI 学会自我进化
人工智能
小饕42 分钟前
RAG学习之- RAG 数据导入完整指南
人工智能·python·学习
黑客说44 分钟前
白日梦无限世界 各类型副本分析
人工智能·科技·游戏·娱乐