3d 可控视频生成 - 3d 可控视频生成技术,学习,经验文章

SP FA

2 年前

[读论文] Compositional 3D-aware Video Generation with LLM Director近年来，通过强大的生成模型和大规模互联网数据，文本到视频生成领域取得了显著进展。然而，在生成视频中精确控制单个概念（如特定角色的动作和外观、视角的移动）方面，仍存在巨大挑战。为此，我们提出了一种新的范式，先分别生成每个概念的 3D 表示，然后利用大语言模型（LLM）和 2D 扩散模型的先验知识将它们组合起来。具体来说，对于输入的文本提示，我们的方法分为三个阶段：