[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作

Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models

L Mandelli, S Berretti - arXiv preprint arXiv:2409.11920, 2024

通过时间和空间组合扩散模型生成复杂的3D人物动作

摘要

本文提出了一种新的方法，用于生成在训练阶段从未见过的3D人物动作。该方法利用GPT模型的人类动作知识，将复杂动作分解为在训练中观察到的简单动作。然后，这些简单动作通过扩散模型的特性重新组合成单一、逼真的动画。作者声称，这种分解和简单动作的重新组合可以合成准确表示复杂输入动作的动画。这种方法在推理阶段进行操作，并且可以与任何预训练的扩散模型集成，从而实现训练数据集中不存在的动作类别的合成。

技术背景： 生成3D人物动作是计算机图形学和机器学习领域的一个活跃研究方向。该项技术在视频游戏，电影制作和影视娱乐等领域有广泛的应用。随着深度学习技术的发展，研究者们提出了多种方法来生成更自然、逼真的人物动作。不过，先前的研究主要集中在基于文本的条件生成，但这些方法在生成动作时严重依赖于训练数据集中已有的动作。

发展历史： 早期的方法主要依赖于运动捕捉数据的统计模型。近年来，随着深度学习技术的发展，研究者们开始使用生成对抗网络（GANs）、变分自编码器（VAEs）和扩散模型等方法来生成3D人物动作。最近，采用Diffusion Models技术的方法逐步受到重视，该类方法在生成质量和控制方面均有较好的表现。

技术挑战:

如何生成训练数据中未出现过的动作类别。
如何有效地将复杂的动作分解为简单的、已知的动作，并在生成过程中重新组合。

具体困难：

现有的生成模型通常需要重新训练以包含新的动作类别。
动作的复杂性和多样性使得分解和重组成为一个挑战。

如何破局？

分解与重组： 使用GPT模型将复杂动作分解为简单动作，然后利用扩散模型的属性将这些简单动作重新组合成复杂的动作。
推理阶段操作： MCD方法在推理阶段操作，可以与任何预训练的扩散模型集成，以合成训练数据中不存在的动作类别。

创新点

提出了一种在训练阶段后从未见过的动作类别的生成方法。
提出了一种新的通用方法，用于时间和空间上的人体动作组合，无约束条件。
通过将已知数据集分割成简单和复杂动作，证明了所提出方法的有效性。
展示了通过同时使用多个文本注释来实现比传统文本条件生成更好的结果。

算法模型

MCD (Motion Composition Diffusion): 一种用于在训练阶段后生成未见过的行动的方法。MCD将文本注释分解成训练集中存在的一个或多个已知子动作，每个子动作都有开始和结束时间。在推理过程中，通过扩散去噪的每一步，分别处理每个子动作，然后根据它们各自的开始和结束时间将它们组合起来。
GPT分解模块: 使用GPT模型来将输入动作分解成基本动作。
扩散模型: 在推理过程中，用于生成基于分解子动作的最终动作。

实验效果

数据集: 使用HumanML3D和KitML数据集进行实验。
指标: 使用TMR模型评估生成动作与文本之间的相似度，计算M2M（动作与动作之间的相似度）和M2T（生成动作与文本之间的相似度）。
结果: 在两个数据集上，MCD方法在检索得分、嵌入相似度和FID值方面均优于仅使用文本条件生成的动作。
重要数据 :
- R1, R3, R10: 检索得分显示MCD方法在生成动作的语义对齐方面表现更好。
- M2M, M2T: 嵌入相似度表明MCD生成的动作与原始动作的分布更接近。
- FID: 生成动作的分布与原始数据集的分布相似度更高。

重要结论:

MCD方法能够在不需要重新训练新模型的情况下，在推理阶段生成训练集中未包含的动作类别。通过将数据集分割为基础动作和复杂动作，并与仅使用文本条件生成的动作以及最新的动作组合方法进行比较，证明了MCD方法的有效性。

推荐阅读指数：★★★★☆

推荐理由 ：

本文提出了一种创新的方法，用于生成训练阶段未出现过的复杂3D人物动作，这对于动画制作、虚拟现实等领域具有重要意义。
实验结果表明，所提出的方法在多个评估指标上均优于现有技术，特别是在处理复杂动作生成任务时。

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更及时地了解前沿技术的发展现状。