Language2Pose: Natural Language Grounded Pose Forecasting # 论文阅读

URL

https://arxiv.org/pdf/1907.01108

TD;DR

19 年 7 月 cmu 的文章,提出一种基于 natural language 生成 3D 动作序列的方法。通过一个简单的 CNN 模型应该就可以实现

Model & Method

首先定义一下任务:

  • 输入:用户的自然语言,应该是通过词袋模型转换成 word vector
  • 输出:shape = [t, j, 3] 的 tensor,t 表示时间维度,j 表示身体的关节点个数,3 表示 3d 关键点的维度。
    训练过程是这样的:用两个 encoder 分别把 pose 和自然语言模型转换到 latent space,然后在 latent space 层面尝试完全对齐两者,这样就可以把对齐后的 latent 经过 pose decoder 还原到 pose 域内。

Dataset & Results

使用的训练数据集是一个开源的。

看起来训练时候文本的分布多样性还是可以的

Thought

  • 思路有点像 GAN
  • 时间比较老了,但是值得参考,可以用来快速复现 + 攒一个 ppl
相关推荐
张较瘦_2 天前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
CV-杨帆3 天前
论文阅读:arxiv 2025 OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
论文阅读
七元权3 天前
论文阅读-EfficientAD
论文阅读·深度学习·实时·异常检测
Matrix_113 天前
论文阅读:Multi-Spectral Image Color Reproduction
论文阅读·人工智能·计算摄影
噜~噜~噜~4 天前
论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“
论文阅读
张较瘦_4 天前
[论文阅读] AI+ | 从 “刚性科层” 到 “智能协同”:一文读懂 AI 应对国家安全风险的核心逻辑
论文阅读·人工智能
张较瘦_4 天前
[论文阅读] AI+ | GenAI重塑智慧图书馆:华东师大实践AI虚拟馆员,解放馆员聚焦高价值任务
论文阅读·人工智能
CoookeCola5 天前
MovieNet (paper) :推动电影理解研究的综合数据集与基准
数据库·论文阅读·人工智能·计算机视觉·视觉检测·database
张较瘦_6 天前
[论文阅读] AI+ | AI如何重塑审计行业?从“手工筛查”到“智能决策”:AI审计的核心逻辑与未来路径
论文阅读·人工智能
苦瓜汤补钙6 天前
论文阅读——Segment Anything(Meta AI)——SAM
论文阅读·图像处理·人工智能·nlp·ai编程