【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)

SVD官方主页 : Huggingface | | Stability.ai || 论文地址

huggingface在线运行demo : https://huggingface.co/spaces/multimodalart/stable-video-diffusion
SVD开源代码Github(含其他项目) || Huggingface

Comfyui使用ComfyUI国内下载 | SVD模型下载 | | 官网下载(Github)

文章目录

一、SVD是什么,能做什么?(图片到视频)

2023年11月21日Stability AI 开源2个图片到视频模型("Stable Video Diffusion"(稳定视频扩散模型)

它将静止图像(still image)作为条件帧(conditioning frame),并从中生成视频分辨率(1024x576)。

  1. 上传已有1张图片,生成相关的视频片段、生成视频长度2-5秒,帧率 3-30帧每秒,
  2. 串联一个Stable-XL模型,生成图片后,再生成视频 (文字到图片再到视频)

1.1 模型的缺点(不能干的事情)?

  1. 生成的视频相当(<=4秒),并且该模型没有实现完美的真实感。
  2. 该模型可能生成没有运动的视频,或者生成非常慢的相机平移(没变化)。
  3. 不能直接文本控制模型 (需要串联其他模型)。
  4. 该模型无法呈现清晰的文本(legible text)(让艺术字动起来)。
  5. 一般来说,人脸和人物可能无法正确生成。
  6. 模型的自动编码部分是有损的(lossy)。

二、在comfyui中使用 (约15G显存)

使用说明: https://comfyanonymous.github.io/ComfyUI_examples/video/

2.1 Stable-XL生成图片再生成视频(Text2Img2Video)

工作流文件: 链接:https://pan.baidu.com/s/1CvyGmUibreM8SM7AFjt1uA?pwd=0125

第一次初始化+运行示例,在3090Ti上花费 209.35秒

拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云

photograph beautiful scenery nature mountains alps river rapids snow sky cumulus clouds

第二次 花费 生成图片(6秒)+视频 (花费70秒)

题词来源于论文图17

一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔

题词

bash 复制代码
A boat sailing leisurely along the Seine River with the Eiffel Tower in background by Vincent van Gogh

一只独角兽在一个神奇的小树林里,非常详细

bash 复制代码
A unicorn in a magical grove, extremely detailed

使用上传的图片生成视频?

三、方法 (未完待续)

该模型训练经过,

  1. 在给定相同大小的上下文帧的情况下,以576x1024的分辨率生成25帧,
  2. 再从图像帧微调为视频[14帧]。我们还对广泛使用的f8解码器( f8-decoder )进行了时间一致性(temporal consistency)微调。
  3. 为了方便起见,我们在这里为该模型额外提供了标准的逐帧解码器(frame-wise decoder )。

利用了Nvidia提出的Align your Latents基本结构

Align your Latents: 23.07.High-Resolution Video Synthesis with Latent Diffusion Models

项目主页: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

相关推荐
好评笔记8 小时前
AIGC视频扩散模型新星:Video 版本的SD模型
论文阅读·深度学习·机器学习·计算机视觉·面试·aigc·transformer
AIGC大时代10 小时前
方法建议ChatGPT提示词分享
人工智能·深度学习·chatgpt·aigc·ai写作
正在走向自律12 小时前
AI 写作(六):核心技术与多元应用(6/10)
人工智能·aigc·ai写作
寻道码路12 小时前
探秘 Docling:多格式文档解析转换大揭秘,赋能 AI 应用新生态
人工智能·aigc·ai编程
好评笔记21 小时前
AIGC视频生成模型:Stability AI的SVD(Stable Video Diffusion)模型
论文阅读·人工智能·深度学习·机器学习·计算机视觉·面试·aigc
算家云21 小时前
TangoFlux 本地部署实用教程:开启无限音频创意脑洞
人工智能·aigc·模型搭建·算家云、·应用社区·tangoflux
五月君1 天前
Windsurf 发布Wave 2,Web实时搜索、URL上下文、自动化记忆等一大波新功能来袭!
aigc
多森1 天前
Cursor太贵?字节Trae可免费用Claude,10分钟带你实现全栈开发
aigc
是店小二呀1 天前
【2024年CSDN平台总结:新生与成长之路】
数据库·人工智能·程序人生·aigc·音视频
杀生丸学AI1 天前
【三维分割】Gaga:通过3D感知的 Memory Bank 分组任意高斯
aigc·三维重建·nerf·视觉大模型·3dgs·三维高斯溅射·分割一切sam