TEMOS

TEMOS(Text-conditioned Motion Synthesis)是2022年提出的一个文本驱动动作生成模型,核心设计是:

文本编码器 + 动作编码器 + 动作解码器

输入文本描述 → 生成对应的3D动作序列

训练时用 KL 散度损失让文本和动作的隐空间分布对齐,让两者都趋向正态分布,方便从文本隐向量解码生成动作。

一对匹配的数据:

文本描述 → 文本编码器 → z_text

对应的真实动作序列 → 动作编码器 → z_motion

**任务一:**对齐: z_text 和 z_motion 尽量靠近 → 用 KL 散度损失 → 让两者的分布都趋向正态分布

**任务二:**文本重建 z_text → 解码器 → 重建动作序列 → 和真实动作序列尽量相似 → 用重建损失

**任务三:**动作重建 z_motion → 解码器 → 重建动作序列 → 和原始动作序列尽量相似 → 用重建损失

"真实动作"和"原动作"是同一个东西,都是指采集的 Ground Truth 动作序列:

任务二和任务三共享同一个解码器:

z_text ─→┐

├→ 同一个解码器 → 重建动作

z_motion─→┘

TEMOS推理/测试阶段输入只有文本 ,模型的任务是:
将文本编码为 latent 表示,再通过 decoder 生成对应的动作序列。

但论文使用KL散度,会把latent分布"高斯化 + 集中化",把原本数据的"个性差异"压缩掉,压缩数据之间的差异,而FID正是依赖这些差异来衡量质量,因此会导致FID出现"虚假乐观"的失真结果。