Language2Pose: Natural Language Grounded Pose Forecasting # 论文阅读

奔跑的汉堡包2024-05-12 8:57

URL

https://arxiv.org/pdf/1907.01108

TD;DR

19 年 7 月 cmu 的文章，提出一种基于 natural language 生成 3D 动作序列的方法。通过一个简单的 CNN 模型应该就可以实现

Model & Method

首先定义一下任务：

输入：用户的自然语言，应该是通过词袋模型转换成 word vector
输出：shape = $t, j, 3$ 的 tensor，t 表示时间维度，j 表示身体的关节点个数，3 表示 3d 关键点的维度。
训练过程是这样的：用两个 encoder 分别把 pose 和自然语言模型转换到 latent space，然后在 latent space 层面尝试完全对齐两者，这样就可以把对齐后的 latent 经过 pose decoder 还原到 pose 域内。

Dataset & Results

使用的训练数据集是一个开源的。

看起来训练时候文本的分布多样性还是可以的

Thought

思路有点像 GAN
时间比较老了，但是值得参考，可以用来快速复现 + 攒一个 ppl

上一篇：在pycharm添加pyqt5外部工具插件

下一篇：PyCharm 集成 Git

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？102026 年 AI 大模型 & AI 编程工具实战全总结