TEMOS - 技术栈

TEMOS（Text-conditioned Motion Synthesis）是2022年提出的一个文本驱动动作生成模型，核心设计是：

文本编码器 + 动作编码器 + 动作解码器

输入文本描述 → 生成对应的3D动作序列

训练时用 KL 散度损失让文本和动作的隐空间分布对齐，让两者都趋向正态分布，方便从文本隐向量解码生成动作。

一对匹配的数据：

文本描述 → 文本编码器 → z_text

对应的真实动作序列 → 动作编码器 → z_motion

**任务一：**对齐： z_text 和 z_motion 尽量靠近 → 用 KL 散度损失 → 让两者的分布都趋向正态分布

**任务二：**文本重建 z_text → 解码器 → 重建动作序列 → 和真实动作序列尽量相似 → 用重建损失

**任务三：**动作重建 z_motion → 解码器 → 重建动作序列 → 和原始动作序列尽量相似 → 用重建损失

"真实动作"和"原动作"是同一个东西，都是指采集的 Ground Truth 动作序列：

任务二和任务三共享同一个解码器：

z_text ─→┐

├→ 同一个解码器 → 重建动作

z_motion─→┘

在 TEMOS 的推理/测试阶段 ，输入只有文本 ，模型的任务是：
将文本编码为 latent 表示，再通过 decoder 生成对应的动作序列。

但论文使用KL散度，会把latent分布"高斯化 + 集中化"，把原本数据的"个性差异"压缩掉，压缩数据之间的差异，而FID正是依赖这些差异来衡量质量，因此会导致FID出现"虚假乐观"的失真结果。