Stable Video文本生成视频——Scaling Latent Video Diffusion Models to Large Datasets 附公测地

近期,Stability AI发布了首个开放视频模型------"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型,专为高分辨率视频设计。研究者通过三个阶段的训练过程,强调了预训练数据集的重要性,并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验,还能够微调成多视图扩散模型,以高效的方式生成对象的多个视角。

此外,通过特定的运动提示和LoRA模块的训练,模型能够实现显式运动控制。研究者们通过策划工作流程,将大型视频集合转化为高质量的数据集,并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色,并在与其他顶尖模型的比较中证明了其有效性。总而言之,这一方法有效地分离了运动和内容,在多视图合成方面取得了显著成果。其主要步骤如下:

  1. 数据处理与标注:首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对,使用三种不同的合成字幕方法对每个片段进行注释,而通过进一步研究发现,现有数据集中含有可能降低最终视频模型性能的样本,如运动量少、文本过多或审美价值低的视频。因此,作者以2FPS进行计算,并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。
  2. 图像预训练:讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型------即Stable Diffusion 2.1------以为模型提供强大的视觉表现力。
  1. 策划视频预训练数据集:作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练,其中利用了空间布局初始化自预训练图像模型的视频模型,并展示了在预训练大型且多样化的数据集,然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流(optical flow)来过滤掉不需要的样本以创建一个更适宜的预训练数据集。

  2. 高质量视频微调:这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段(图像预训练和视频预训练)的基础上,通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间,插入时间卷积和注意力层,这些是在每个空间卷积和注意力层之后添加的,与仅训练时间层的工作或完全基于LLM(大型语言模型)的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码,其github仓库地址为:github.com/nateraw/sta... 可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用,可以直接进入官网www.stablevideo.com/ 点击start with text。

输入对应的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后选择比例和风格,点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用,而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士,还是对于对提示技术感兴趣的初学者,我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识,然后逐步过渡到高级提示技术。您还将学习如何防止提示误用,以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接:study.163.com/course/intr...

相关推荐
小白跃升坊7 分钟前
基于1Panel的AI运维
linux·运维·人工智能·ai大模型·教学·ai agent
kicikng11 分钟前
走在智能体前沿:智能体来了(西南总部)的AI Agent指挥官与AI调度官实践
人工智能·系统架构·智能体协作·ai agent指挥官·ai调度官·应用层ai
测试者家园13 分钟前
测试用例智能生成:是效率革命,还是“垃圾进,垃圾出”的新挑战?
人工智能·职场和发展·测试用例·测试策略·质量效能·智能化测试·用例设计
GIS瞧葩菜13 分钟前
Cesium 轴拖拽 + 旋转圈拖拽 核心数学知识
人工智能·算法·机器学习
njsgcs16 分钟前
dqn和cnn有什么区别 dqn怎么保存训练经验到本地
人工智能·神经网络·cnn
AndrewHZ24 分钟前
【AI黑话日日新】什么是AI智能体?
人工智能·算法·语言模型·大模型·llm·ai智能体
cd_9492172142 分钟前
九昆仑低碳科技:所罗门群岛全国森林碳汇项目开发合作白皮书
大数据·人工智能·科技
工程师老罗1 小时前
目标检测数据标注的工具与使用方法
人工智能·目标检测·计算机视觉
yuankoudaodaokou1 小时前
高校科研新利器:思看科技三维扫描仪助力精密研究
人工智能·python·科技
Acrelhuang1 小时前
工商业用电成本高?安科瑞液冷储能一体机一站式解供能难题-安科瑞黄安南
大数据·开发语言·人工智能·物联网·安全