Stability AI在2023年11月首次推出了Stable Video,将模型代码发布在Stable Video GitHub 上,并在HuggingFace 上发布了权重,供用户下载并在性能强大的硬件上本地运行。
但是对于那些没有强大GPU或没有具备所有这些技术技能的其他人来说怎么办呢?好吧,Stability AI本周终于推出了他们的Stable Video网站,现在任何人都可以尝试制作AI视频了。
你所需要的就是一个Google账号和一个网页浏览器。
什么是Stable Video?
Stable Video Diffusion是一个强大的工具,专为媒体、娱乐、教育和营销等各种视频应用而设计。它可以将文本和图像输入转换成生动的场景,将想法转化为电影式的体验。
Stable Video Diffusion以两种图像到视频模型的形式发布,可以生成14帧和25帧,帧速率可在3到30帧每秒之间自定义。
它的功能包括:
-
视频时长:2到5秒
-
帧率:最高可达30帧每秒
-
处理时间:2分钟或更短
工作原理:
Stable Video Diffusion依赖于一个复杂的过程,利用扩散模型(DMs)、无分类器的引导以及专门设计用于视频生成的基础模型架构。
如果您想了解更多关于其工作原理的信息,请查阅此白皮书(见参考资料)。
示例视频
以下示例视频由社区生成,并在Stable Video上展示。
提示:极光
提示:非洲象
提示:动态模糊的动漫女孩在太空梭驾驶舱中操作,近距离看到激光灯光秀、反光镜、神光、光线追踪的金属饱和鲜艳的色彩,一个令人惊叹的亚洲女性时尚模特,长长的棕色头发,风格类似于Daz3d,卡通般的角色,迷人的钉书,闪亮的眼睛,Artgerm,32k UHD,可爱的卡通式设计,棱彩色彩,弯曲的光速曲线背景。
如何访问Stable Video?
前往他们的网站(https://www.stablevideo.com/generate),并使用您的Google账号登录。仪表板如下所示:
您可以使用文本提示描述视频,也可以上传图像作为输入。注册后,您将获得150个免费积分。
以下是一个文本提示的示例:
提示:一位时尚的女士走在东京的街道上,街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手里拿着一个黑色钱包。她戴着太阳镜和涂着红色口红。她走路自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人走来走去。
人工智能不会立即产生视频输出。它将首先生成四张图像,然后选择你最喜欢的一张。
AI首先生成四幅图像,让您选择您喜欢的一幅。点击"继续"后,最终视频生成过程开始。在等待期间,Stability AI 利用这段时间向您展示两个视频,并要求您偏好,以帮助改进未来的模型。
大约两分钟后,视频生成完成。
虽然质量可能还不能完全与 Sora 媲美,但看起来还是足够不错的。
注意:使用文本提示生成将花费您11个积分。使用图像作为输入每次生成将花费10个积分。
让我们尝试另一个例子。下面我使用的图像是来自 OpenAI Sora 示例之一的视频帧。
最终结果:
费用是多少?
新用户将获得150个免费积分。额外的积分可以按照以下方式购买:
10美元购买500积分:大约可以生成50个视频。 50美元购买3,000积分:大约可以生成300个视频。
总结
总的来说,很高兴看到另一个AI视频生成器在本周宣布推出。过去一年中机器学习的进步速度令人惊叹。
我迫不及待想看看一旦ControlNet被正确地适应到视频上,人们会用它做些什么。从头开始生成视频很酷,但这的真正用途将是时间上的一致性。
它能与Sora相比吗?还不太行。
从稳定扩散中得到稳定的视频通常需要大量的手动后期处理来消除闪烁。也许再过几次迭代,它就会和Sora一样好。
此外,我认为50个视频的价格标签为10美元也太贵了。如果你有一台高端GPU,只需在你的PC上运行视频模型,就可以免费生成无限数量的视频。
参考资料
https://generativeai.pub/stability-ais-stable-video-is-finally-here-663290e5b70c
**Stable Video GitHub:**https://github.com/Stability-AI/generative-models
HuggingFace: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
**Stable Video 网站:**https://www.stablevideo.com/