Stability AI发布了单目视频转4D模型的新AI模型:Stable Video 4D

开放生成式人工智能初创公司Stability AI在3月发布了Stable Video 3D,是一款可以根据图像中的物体生成出可旋转的3D模型视频工具。Stability AI在7月24日发布了新一代的Stable Video 4D,增添了赋予3D模移动作的功能。

Stable Video 4D能在约40秒内生成8个视角的5帧视频,整个4D优化过程大约需要20到25分钟。该技术预计在游戏开发、视频编辑和虚拟现实等领域有广泛应用前景,专业人士可从多角度视角观察物体,提升产品的真实感和沉浸感。

Stable Video 4D,这是一种创新模型,允许用户上传单个视频并接收八个新角度/视图的动态新视图视频,提供全新水平的多功能性和创造力。

Stable Video 4D 模型以稳定视频扩散模型(将图像转换为视频)为基础 ,以视频作为输入,从不同角度生成多个新视角视频。这一进步代表着我们能力的飞跃,从基于图像的视频生成转向全 3D 动态视频合成。

相关链接

项目页面:https://sv4d.github.io

arXiv 页面:https://arxiv.org/abs/2407.17470 Huggingface:https://huggingface.co/stabilityai/sv4d

存储库:https://github.com/Stability-AI/generative-models

技术报告:https://sv4d.github.io/static/sv4d_technical_report.pdf

视频摘要:https://www.youtube.com/watch?v =RBP8vdAWTgk

关键要点

Stable Video 4D 将单个物体视频转换为八个不同角度/视图的多个新视图视频。

Stable Video 4D 通过一次推理,在大约 40 秒内生成 8 个视图中的 5 帧。

用户可以指定摄像机角度,定制输出以满足特定的创作需求。

该模型目前处于研究阶段,未来将应用于游戏开发、视频编辑和虚拟现实,预计会不断改进。它目前在Hugging Face上可用。

工作原理

用户首先上传一段视频并指定所需的 3D 摄像机姿势。Stable Video 4D 随后会根据指定的摄像机视角生成八个新视角视频,从而提供拍摄对象的全面、多角度视角。生成的视频随后可用于有效优化视频中拍摄对象的动态 3D 表示。

目前,Stable Video 4D 可以在大约 40 秒内生成 8 个视图中的 5 帧视频,整个 4D 优化大约需要 20 到 25 分钟。我们的团队设想未来将其应用于游戏开发、视频编辑和虚拟现实。这些领域的专业人士可以从从多个角度可视化物体的能力中受益匪浅,从而增强其产品的真实感和沉浸感。

一流的性能

与以前的方法不同,以前的方法通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样,而 SV4D 能够同时生成多个新视图视频,从而大大提高了空间和时间轴的一致性。此功能不仅可以确保跨多个视图和时间戳的一致对象外观,还可以实现更轻量的 4D 优化框架,而无需使用多个扩散模型进行繁琐的分数蒸馏采样 (SDS)。

与现有作品相比,Stable Video 4D 能够生成新颖的视图视频,这些视频更加详细、忠实于输入视频,并且跨帧和视图保持一致。

研究与开发

Stable Video 4D 已在Hugging Face上推出,这是我们的第一个视频到视频生成模型,标志着 Stability AI 的一个激动人心的里程碑。我们正在积极完善该模型,对其进行优化,使其能够处理更广泛的现实世界视频,而不仅仅是目前训练它的合成数据集。

Stability AI 团队致力于不断创新,探索这项技术和其他技术的实际用例。我们预计,各公司将采用我们的模型,并进一步微调以满足其独特需求。这项技术在制作逼真的多角度视频方面潜力巨大,我们很高兴看到随着持续的研究和开发,它将如何发展。

技术报告

论文链接:https://arxiv.org/abs/2407.17470

结合此公告,我们将发布一份全面的技术报告,详细介绍该模型开发过程中所采用的方法、挑战和突破。

Stable Video 4D 代表了最先进的开源新视角视频生成技术。通过将单一视频输入转换为动态、多角度的 3D 输出,我们为各个行业的创造力和创新开辟了新途径。请继续关注我们的进一步更新,我们将继续增强和扩展这项激动人心的技术的功能。

相关推荐
tanis_20773 分钟前
学术论文 PDF 的版面自动还原:MinerU 对多栏排版、浮动图表与脚注区域的识别实战
人工智能·pdf·ocr
guo_xiao_xiao_7 分钟前
YOLOv11室内果蔬展示苹果目标检测数据集-37张-apple-1_3
人工智能·yolo·目标检测
AI学长13 分钟前
数据集|草莓成熟度目标检测数据集-3类530张图
人工智能·目标检测·草莓成熟度目标检测数据集
湘美书院--湘美谈教育17 分钟前
湘美书院谈AI教育经验集:如何用AI整理湖湘文化经义大略
大数据·人工智能·深度学习·神经网络·机器学习
月落归舟20 分钟前
深度讲解 AI Agent 完整运行全流程
人工智能
love在水一方23 分钟前
【翻译】NavDreamer: Video Models as Zero-Shot 3D Navig
人工智能·机器学习
byte轻骑兵23 分钟前
【HID】规范精讲[11]: 蓝牙HID设备信号交互流程深度拆解
人工智能·交互·hid·蓝牙键盘·蓝牙鼠标
AIDF202625 分钟前
看破 AI 的“马甲”——从算子到 ChatGPT
人工智能·chatgpt·应用·模型·算子
IT大白鼠33 分钟前
AIGC+教育:个性化学习、AI助教、内容生产,教育行业的变革路径
人工智能·学习·aigc
AI医影跨模态组学35 分钟前
NPJ Precis Oncol(IF=8)哈尔滨医科大学附属肿瘤医院韩鹏等团队:一种可解释的深度学习生物标志物用于胃癌预后评估及辅助化疗获益预测
人工智能·深度学习·论文·医学·医学影像·影像组学