Language2Pose: Natural Language Grounded Pose Forecasting # 论文阅读

URL

https://arxiv.org/pdf/1907.01108

TD;DR

19 年 7 月 cmu 的文章,提出一种基于 natural language 生成 3D 动作序列的方法。通过一个简单的 CNN 模型应该就可以实现

Model & Method

首先定义一下任务:

  • 输入:用户的自然语言,应该是通过词袋模型转换成 word vector
  • 输出:shape = [t, j, 3] 的 tensor,t 表示时间维度,j 表示身体的关节点个数,3 表示 3d 关键点的维度。
    训练过程是这样的:用两个 encoder 分别把 pose 和自然语言模型转换到 latent space,然后在 latent space 层面尝试完全对齐两者,这样就可以把对齐后的 latent 经过 pose decoder 还原到 pose 域内。

Dataset & Results

使用的训练数据集是一个开源的。

看起来训练时候文本的分布多样性还是可以的

Thought

  • 思路有点像 GAN
  • 时间比较老了,但是值得参考,可以用来快速复现 + 攒一个 ppl
相关推荐
万里鹏程转瞬至14 小时前
论文简读:Qwen2.5-VL Technical Report
论文阅读·深度学习·多模态
万里鹏程转瞬至17 小时前
论文简读:Qwen3-VL Technical Report | Qwen3VL技术报告
论文阅读·深度学习·多模态
墨绿色的摆渡人1 天前
论文笔记(一百一十二)Pos3R: 6D Pose Estimation for Unseen Objects Made Easy
论文阅读
c0d1ng1 天前
十二月第三周周报(论文阅读)
论文阅读
Xy-unu1 天前
[LLM]AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
论文阅读·人工智能·算法·机器学习·transformer·论文笔记·剪枝
RedMery2 天前
DETR类论文笔记
论文阅读·论文笔记
m0_650108243 天前
3D Gaussian Splatting:实时辐射场渲染的突破性方案
论文阅读·三维重建·3d高斯溅射·实时视角切换·自适应密度控制·可微光栅化器·灵活高斯基元
0x2113 天前
[论文阅读]AttnTrace: Attention-based Context Traceback for Long-Context LLMs
论文阅读
李加号pluuuus3 天前
【论文阅读】Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generatio
论文阅读
蓝海星梦3 天前
Chain‑of‑Thought 推理链评估全解析:从参考方法到无参考指标
论文阅读·人工智能·自然语言处理·cot