零样本从文本直接生成视频:Text2video-zero的试用和启发

前言

前段时间,一款AI视频应用及其创始人刷爆了科技圈,顺便还带火了自家公司的股票。这是一家名为pikaai的初创公司,他们的主打产品是一款文本生成视频应用Pika 1.0。对于AI生成图片大多数人已经不陌生了,甚至已经用的非常熟练,其中不乏常见的Stable Diffusion以及Midjourney等各种模型和产品。反观文生视频模型及其衍生产品却进展迟缓,尽管几家当红的公司宣传自己的产品非常厉害,但实际上都面临或多或少的问题。

文生视频的难点

  • 可供训练的有效数据少:对于任何深度学习模型来说,数据质量和数量决定了它的性能上限。不同于语言模型或者视觉模型,这些模型训练的数据很容易就能在开源社区找到,并且质量和数量都较为可观。而文生视频模型训练需要的文本-视频对就没那么容易找到了。

  • 计算难度大: 视频数据比图片数据多了时间上的维度。假设已经有一批文本-视频对数据,文生视频模型的训练也只能用非常短的视频片段进行训练,因为越长的视频越难保证帧与帧之间的一致性和连贯性。

实现文生视频的方法

早期的生成对抗网络

文生视频是个非常新的研究方向,早期研究主要使用基于 Gan 和 Vae 来实现。如VideoGan,是一个双通道模型,把视频抽象分成前景和背景,分别通过这两个通道把噪声转视频帧再合并到一块,是最早将GAN用于视频生成的框架。

虽然这些工作为文生视频奠定了基础,但它们的应用范围非常有限,仅限于低分辨率(大多都是128*128像素)以及视频中目标单一的情况。

近期的扩散模型

而近两年来,随着扩散模型的发展以及在图像领域取得的成就,一些研究者也逐渐把研究重心转移到扩散模型上来。因为之前调研使用过Text2Video-Zero这个模型,接下来就简要介绍一下这个模型及其效果。

顾名思义,Text2Video-Zero 是一种零样本模型,即无需使用任何 文本 - 视频对 数据,就能把文生图迁移到文生视频,因此可以直接使用stable diffusion相关的模型,如sd-1.5或sdxl等 。 整体思路可以概述如下:

  1. 从第二帧开始每一帧都不进行随机噪声采样,而是从前一帧变化来,通过一个运动向量叠加而成
  2. Unet的注意力机制修改为帧与帧之间的注意力机制

从论文中给出的例子来看,能够生成一些简单的视频 我也尝试生成一段简单的视频,效果还是有限的。细看会发现草的细节不够好,存在畸变,而且河流是简单的左右对称。虽然调整了采样率,但效果还是不太理想。

结论

从实际效果来看,目前的文生视频效果尚未达到生成电影级视频的能力。猜测接下来开源的一些模型可能聚焦用更好的方法捕捉视频帧之间的关联,从图像零样本迁移到视频,毕竟这才是真正的多模型大模型。而一批商业化的公司可能还会花费大量的人力财力去构建私有的高质量文本-视频数据,以提升视频在细节方面的效果,从而拉开与别人的差距。

相关推荐
100个铜锣烧2 小时前
高级提示技术:Chain-of-Thought与ReAct——让大模型学会“思考”和“行动”
人工智能·大模型·提示词工程
JackHCC2 小时前
快手OneRetrieval:可编辑生成式电商召回
人工智能·机器学习
前端之虎陈随易3 小时前
编程语言级别的Skill市场,AI Agent 的未来形态
前端·vue.js·人工智能·typescript·node.js
QiLinkOS3 小时前
第三视觉理解徐玉生与他的商业活动(30)
大数据·c++·人工智能·算法·开源协议
武汉唯众智创3 小时前
当汉字成为心理CT:AI汉字联想投射分析的技术实现与心理评估价值
人工智能·ai心理健康·ai心理评估·本土化心理测评·校园心理健康解决方案·ai心理监测·多模态情绪模型
Longvox3 小时前
Agent为什么会死循环?
人工智能·ai编程
陈天伟教授3 小时前
FreeCAD 启动后小窗口闪现即退的解决思路
人工智能·机器人·工业设计
酒旅Agent开发实战4 小时前
AI 旅行规划助手如何接入真实酒旅数据:从自然语言到酒店预订的全流程 MCP 实战
人工智能·ai·旅游·skill·酒店api·机票api
workflower4 小时前
设备单元级(L1)实施路径
人工智能·线性代数·矩阵·机器人·开源
Dragon Wu4 小时前
ComfyUI Desktop 实例进入后一直loading的问题解决
人工智能·ai