动作生成

MoMaskMoMask用于根据文本生成3D人体动作用 “mask建模（类似BERT填空）”来生成动作👉 用“填空”的方式生成动作，而不是一步一步写（GPT）

T2M-GPT人体动作天然是连续的——每一帧都是几十个关节的角度值构成的浮点向量。VQVAE 要做的，就是把这种"无限精度的连续信号"压缩成一串"有限词表里的整数索引"，就像把音乐压缩成 MP3 编码一样。

TEMOSTEMOS（Text-conditioned Motion Synthesis）是2022年提出的一个文本驱动动作生成模型，核心设计是：

我是有底线的