如何使用LLM实现文本自动生成视频

推荐:使用 NSDT场景编辑器 助你快速搭建可二次编辑的3D应用场景

介绍

基于扩散的图像生成模型代表了计算机视觉领域的革命性突破。这些进步由Imagen,DallE和MidJourney等模型开创,展示了文本条件图像生成的卓越功能。有关这些模型内部工作的介绍,您可以阅读本文。

然而,Text-2-Video模型的开发提出了更艰巨的挑战。目标是在每个生成的帧之间实现连贯性和一致性,并保持从视频开始到结束的生成上下文。

然而,基于扩散的模型的最新进展也为文本2视频任务提供了广阔的前景。现在,大多数文本 2-视频模型在预先训练的文本 2-图像模型上采用微调技术,集成动态图像运动模块,并利用各种文本 2-视频数据集,如 WebVid 或 HowTo100M。

在本文中,我们的方法涉及利用HuggingFace提供的微调模型,该模型被证明有助于生成视频。

实现

先决条件

我们使用HuggingFace提供的Diffusers库,以及一个名为Accelerate的实用程序库,它允许PyTorch代码在并行线程中运行。这加快了我们的生成过程。

首先,我们必须安装依赖项并为代码导入相关模块。

复制代码
pip install diffusers transformers accelerate torch

然后,从每个库中导入相关模块。

复制代码
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

创建管道

我们将ModelScope提供的Text-2-Video模型加载到HuggingFace中,在扩散管道中。该模型具有 1 亿个参数,基于 UNet7D 架构,该架构通过迭代去噪过程从纯噪声生成视频。它分为三部分。模型首先从简单的英语提示符中执行文本特征提取。然后将文本特征编码到视频潜在空间并进行去噪。最后,将视频潜在空间解码回视觉空间并生成短视频。

复制代码
pipe = DiffusionPipeline.from_pretrained(
"damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")


pipe.scheduler = DPMSolverMultistepScheduler.from_config(
pipe.scheduler.config)


pipe.enable_model_cpu_offload()

此外,我们使用 16 位浮点精度来降低 GPU 利用率。此外,还启用了 CPU 卸载,可在运行时从 GPU 中删除不必要的部分。

生成视频

复制代码
prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

然后,我们将提示传递给视频生成管道,该管道提供一系列生成的帧。我们使用 25 个推理步骤,以便模型将执行 25 次去噪迭代。更多的推理步骤可以提高视频质量,但需要更多的计算资源和时间。

然后使用扩散器的实用程序功能组合单独的图像帧,并将视频保存在磁盘上。

然后,我们将提示传递给视频生成管道,该管道提供一系列生成的帧。然后使用扩散器的实用程序功能组合单独的图像帧,并将视频保存在磁盘上。

结论

足够简单!我们得到了蜘蛛侠冲浪的视频。虽然这是一个质量不高的短视频,但它仍然象征着这个过程的前景,它很快就会达到与Image-2-Text模型类似的结果。尽管如此,测试你的创造力和使用模型仍然足够好。

原文链接:如何使用LLM实现文本自动生成视频 (mvrlink.com)

相关推荐
来让爷抱一个2 小时前
MonkeyCode 多模型切换技巧:什么时候用 Claude/GPT/DeepSeek
人工智能·ai编程
李白你好2 小时前
AI Agent 架构的自动化渗透测试工具
运维·人工智能·自动化
2601_957884842 小时前
面向内容合规性的短视频矩阵分发机制:感知哈希去重与语义检索优化实践
矩阵·音视频·哈希算法
2601_949499943 小时前
8 大工业光模块供应商选型:芯瑞科技 400G OSFP 助力 AI 算力集群升级
人工智能·科技
温柔只给梦中人3 小时前
NLP学习:注意力机制
人工智能·学习·自然语言处理
weixin_429630263 小时前
3.49 HVLF:一种跨场景的整体视觉定位框架
深度学习·机器学习·计算机视觉
广州灵眸科技有限公司3 小时前
瑞芯微RV1126B开发板(EASY-EAI-PI2) Easy-Eai编译环境准备与更新
服务器·前端·人工智能·python·深度学习
深度学习lover3 小时前
<数据集>yolo樱桃识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·樱桃识别
深圳市机智人激光雷达3 小时前
技术筑牢安全冗余:激光雷达在自动驾驶高阶感知中的底层价值与范式演进
人工智能·安全·机器学习·3d·机器人·自动驾驶·无人机
江澎涌3 小时前
拆解与 AI 的一次对话
人工智能·算法·程序员