Language2Pose: Natural Language Grounded Pose Forecasting # 论文阅读

URL

https://arxiv.org/pdf/1907.01108

TD;DR

19 年 7 月 cmu 的文章,提出一种基于 natural language 生成 3D 动作序列的方法。通过一个简单的 CNN 模型应该就可以实现

Model & Method

首先定义一下任务:

  • 输入:用户的自然语言,应该是通过词袋模型转换成 word vector
  • 输出:shape = [t, j, 3] 的 tensor,t 表示时间维度,j 表示身体的关节点个数,3 表示 3d 关键点的维度。
    训练过程是这样的:用两个 encoder 分别把 pose 和自然语言模型转换到 latent space,然后在 latent space 层面尝试完全对齐两者,这样就可以把对齐后的 latent 经过 pose decoder 还原到 pose 域内。

Dataset & Results

使用的训练数据集是一个开源的。

看起来训练时候文本的分布多样性还是可以的

Thought

  • 思路有点像 GAN
  • 时间比较老了,但是值得参考,可以用来快速复现 + 攒一个 ppl
相关推荐
红苕稀饭6661 小时前
LLaVA-OneVision论文阅读
论文阅读
CV-杨帆8 小时前
论文阅读:arxiv 2025 Scaling Laws for Differentially Private Language Models
论文阅读·人工智能·语言模型
红苕稀饭66611 小时前
LLaVA-Video论文阅读
论文阅读
铮铭11 小时前
【论文阅读】具身竞技场:面向具身智能的全面、统一、演进式评估平台
论文阅读·人工智能·机器人·世界模型
七元权13 小时前
论文阅读-FoundationStereo
论文阅读·深度学习·计算机视觉·零样本·基础模型·双目深度估计
berling0018 小时前
【论文阅读 | TCSVT 2024 | CCAFusion: 用于红外与可见光图像融合的跨模态坐标注意力网络】
论文阅读
0x21118 小时前
[论文阅读]Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs
论文阅读
bylander18 小时前
【论文阅读】通义实验室,VACE: All-in-One Video Creation and Editing
论文阅读·人工智能·计算机视觉·音视频
飞机火车巴雷特18 小时前
【论文阅读】Debating with More Persuasive LLMs Leads to More Truthful Answers
论文阅读·大模型·辩论机制
红苕稀饭66618 小时前
LLAVA-MINI论文阅读
论文阅读