CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。

CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机,以创作高质量的电影视频。

相关链接

论文介绍

CineMaster是一种用于 3D 感知和可控文本到视频生成的新型框架。目标是让用户拥有与专业电影导演相当的可控性:在场景中精确放置物体、在 3D 空间中灵活操纵物体和相机,以及对渲染帧进行直观的布局控制。

CineMaster分两个阶段运行:

  • 第一阶段:设计了一个交互式工作流程,允许用户通过定位对象边界框和定义 3D 空间内的相机运动来直观地构建 3D 感知条件信号。

  • 第二阶段:这些控制信号(包括渲染的深度图、相机轨迹和对象类别标签)作为文本到视频扩散模型的指导,确保生成用户想要的视频内容。

此外,为了克服具有 3D 框和相机姿势注释的野生数据集的稀缺性,论文精心建立了一个自动化数据注释管道,从大规模视频数据中提取 3D 边界框和相机轨迹作为控制信号。大量定性和定量实验表明,CineMaster 明显优于现有方法,并实现了卓越的 3D 感知文本到视频生成。

物体和相机运动控制演示

物体运动控制演示

相机运动控制演示

它是如何工作的?

CineMaster是一个框架,它使用户能够在 3D 空间中操纵对象和相机以生成文本到视频。CineMaster 包含两个阶段。首先,我们提出了一个交互式工作流程,使用户能够以 3D 原生方式直观地操纵对象和相机。然后,控制信号从 3D 引擎渲染并输入到文本到视频的扩散模型中,指导用户生成想要的视频内容。

模型设计

网络架构概述。 论文设计了一个语义布局控制网,它由一个语义注入器和一个基于 DiT 的控制网组成。语义注入器融合了 3D 空间布局和类标签条件。基于 DiT 的控制网进一步表示融合的特征并添加到基础模型的隐藏状态。同时,我们通过相机适配器注入相机轨迹,以实现对物体运动和相机运动的联合控制。

数据集标记管道

数据集标记管道。 论文提出了一个数据标记管道,用于从视频中提取 3D 边界框、类标签和相机姿势。管道包括四个步骤:

  1. 实例分割:从视频前景中获取实例分割结果。

  2. 深度估计:使用 DepthAnything V2 生成度量深度图。

  3. 3D 点云和框计算:为每个实体识别具有最大掩码的帧,并通过逆投影计算每个实体的 3D 点云。然后,使用最小体积法计算每个实体的 3D 边界框。

  4. 实体跟踪和 3D 框调整:访问每个实体的点跟踪结果并计算每帧的 3D 边界框。最后,将整个 3D 场景投影到深度图中。

相关推荐
选与握44 分钟前
深度学习基本知识+tensorflow
人工智能
大千AI助手1 小时前
ROUGE-SU4:文本摘要评估的跳连智慧
人工智能·机器学习·nlp·rouge·文本摘要·大千ai助手·rouge-su4
草莓熊Lotso1 小时前
unordered_map/unordered_set 使用指南:差异、性能与场景选择
java·开发语言·c++·人工智能·经验分享·python·网络协议
stormsha2 小时前
裸眼3D原理浅析AI如何生成平面裸眼3D图像以科幻战士破框而出为例
人工智能·计算机视觉·平面·3d·ai
春日见5 小时前
丝滑快速拓展随机树 S-RRT(Smoothly RRT)算法核心原理与完整流程
人工智能·算法·机器学习·路径规划算法·s-rrt
陈文锦丫6 小时前
MixFormer: A Mixed CNN–Transformer Backbone
人工智能·cnn·transformer
小毅&Nora7 小时前
【人工智能】【AI外呼】系统架构设计与实现详解
人工智能·系统架构·ai外呼
顾道长生'7 小时前
(Arxiv-2025)ID-COMPOSER:具有分层身份保持的多主体视频合成
计算机视觉·音视频·composer
一只侯子8 小时前
Face AE Tuning
图像处理·笔记·学习·算法·计算机视觉
jianqiang.xue8 小时前
别把 Scratch 当 “动画玩具”!图形化编程是算法思维的最佳启蒙
人工智能·算法·青少年编程·机器人·少儿编程