技术栈
3d 可控视频生成
SP FA
3 个月前
人工智能
·
深度学习
·
计算机视觉
·
computer vision
·
视频生成
·
3d 可控视频生成
[读论文] Compositional 3D-aware Video Generation with LLM Director
近年来,通过强大的生成模型和大规模互联网数据,文本到视频生成领域取得了显著进展。然而,在生成视频中精确控制单个概念(如特定角色的动作和外观、视角的移动)方面,仍存在巨大挑战。为此,我们提出了一种新的范式,先分别生成每个概念的 3D 表示,然后利用大语言模型(LLM)和 2D 扩散模型的先验知识将它们组合起来。具体来说,对于输入的文本提示,我们的方法分为三个阶段: