3D姿势和跟踪的人体行为识别

🏡作者主页:点击!

🤖编程探索专栏:点击!

⏰️创作时间:2024年11月28日21点20分


神秘男子影,

秘而不宣藏。

泣意深不见,

男子自持重,

子夜独自沉。

论文链接

点击开启你的论文编程之旅https://www.aspiringcode.com/content?id=17323757482265&uid=778c699eab064a78af32362069bf7ab0

引言

本文介绍的文章是《On the Benefits of 3D Pose and Tracking for Human Action Recognition》(CVPR 2023)。

在流体力学中,拉格朗日和欧拉描述方式是观察流体运动的两种方式。拉格朗日观点是指观察者跟随单个流体粒子,随着它在空间和时间中移动,可以想象成坐在船上顺流而下。欧拉观点则关注流体流过特定空间位置的情况,随着时间的变化,可以想象成坐在河边观察水流过固定位置。

这些概念与我们分析人类活动视频的方式非常相关。在欧拉观点中,我们会关注特定位置的特征向量,并考虑其随时间的演变。而在拉格朗日观点中,我们会跟踪个体(例如一个人)在时空中的移动,并跟踪与之相关的特征向量。

在这项工作中,我们采取拉格朗日视角来分析人类行为。通过利用最近的3D跟踪方法PHALP和HMR 2.0,我们能够恢复人物轨迹,并使用这些轨迹来识别行为。尽管人体姿态随时间的变化是一个强烈的信号,但一些行为需要更多的上下文信息,包括外观和场景。

因此,本文还探讨了将姿态与来自人和场景的外观信息融合的好处,并提出了一种在拉格朗日框架内结合这些信息的方法,即拉格朗日行动识别(LART),它通过融合3D姿态和上下文化的外观信息来提高行为识别的性能。

LART模型

理解人类行为需要考虑多种信息,包括头部和视线方向、人体姿态和动态、与物体或其他人或动物的互动、整个场景、活动背景等。一些简单的行为可以通过姿态和姿态动态单独识别,对于更复杂的行为,需要结合多种信息源进行推理,例如识别某人正在用刀具切番茄时,看到刀具和番茄是有帮助的。

作者提出了两种设计选择:一是使用"解耦"表示,明确地以模块化方式表示姿态、交互物体等元素;二是将视频像素直接输入到大容量神经网络模型中,依赖模型自己来识别区分性信息。

仅用3D姿态进行动作识别

在动作识别领域,3D人体姿态是一个强有力的特征,因为它包含了动作的空间和时间信息。研究人员试图探索仅使用这种3D姿态信息而不依赖于其他视觉内容(如场景的外观和上下文)是否能够实现有效的动作识别。

数据获取

  • 3D姿态数据获取:通过使用PHALP方法,从视频中提取每个人的3D姿态和位置信息。PHALP能够将2D检测提升到3D,从而链接多帧中的人物并获取其3D表示。
  • SMPL参数:使用SMPL模型参数化3D人体姿态,包括关节角度(207个参数,23个关节每个关节3个角度)和全局身体方向(3x3的旋转矩阵)以及身体形状(10个参数)。
  • 3D位置信息:除了姿态,还包括每个人在相机坐标系中的3D位置(3个参数),这有助于理解人与人之间的相对位置和交互。

人向量和动作管构建

  • 人向量 :在时间 tt 的人向量 Hi,tH i ,t 被定义为 Hi,t=Pi,t={θi,t,ψi,t,Li,t}H i ,t =P i ,t ={θ i ,t ,ψ i ,t ,L i ,t},其中包含了3D姿态和位置信息。
  • 动作管(Action-Tube) :对于视频中的每个人 ii ,构建一个动作管 ΦiΦi ,它包含了该人在所有时间帧 TT 的人向量 Hi,tH i ,t

模型架构

模型的输入是基于SMPL模型参数化的3D人体姿态,包括关节角度、全局身体方向和身体形状,以及人在相机坐标系中的3D位置。每个人在时间 tt 的表示 Hi,tH i ,t 包含了这些3D姿态和位置信息,被编码为一个高维向量。

使用一个多层感知机(MLP)将3D姿态和位置信息从原始的高维空间投影到一个低维空间,通常是256维或512维,以便于模型处理。

为了使模型能够理解时间序列数据,对每个时间步进行位置编码,使用正弦和余弦函数的变换来表示时间信息。除了时间,轨迹ID也进行了位置编码,以区分视频中不同的人。对于时间和轨迹ID的位置编码,使用2D正弦和余弦函数作为位置编码,具体公式如下:

其中,tt 是时间索引,ii 是轨迹ID,r,s∈[0,d/2)r ,s ∈[0,d /2) 指定维度,DD 是token的维度。

模型使用标准的Transformer架构,Transformer网络的输出通过一个线性层,用于预测动作类别。在添加了时间和身份的位置编码后,每个人标记被传递到Transformer网络。第 (t+i×N)(t +i ×N) 个标记由下式给出:

这里,fprojf proj 是一个线性层,用于将人向量 Hi,tH i ,t 投影到更高维度的空间,PE(t,i,:)P E (t ,i,:) 表示所有位置编码的向量。

使用二元交叉熵损失函数来训练模型,以最小化模型预测和真实标签之间的差异。

从外观和3D姿态识别动作

在许多情况下,仅依赖3D姿态信息不足以准确识别复杂的动作。例如,切菜、打球等动作不仅依赖于人体的运动轨迹,还需要考虑与环境中物体的交互。3D姿态提供了关于人体运动的几何信息,而外观特征则提供了关于场景和人物的上下文信息。将这两种信息结合,可以提升模型对动作的理解能力。

模型架构

外观特征提取

使用预训练的2D动作识别模型(如MViT,经过MaskFeat预训练)来提取每个轨迹的外观特征。这个模型能够从视频帧中捕捉到丰富的视觉信息,包括背景、物体和人物的外观。在每个轨迹的特定时间点 tt ,提取的外观特征向量记为 Ui,tU i ,t

轨迹和频率

对于每个轨迹 ΦiΦi ,在一定的时间频率 fsf s 下运行2D动作识别模型,以获取与该轨迹相关的外观特征。通过这种方式,模型能够在时间上捕捉到动作的动态变化。

人向量的构建

每个人的向量 Hi,tHi ,t 现在包含了3D姿态信息和外观信息,形式为:

其中,θi,tθ i ,t 是关节角度,ψi,tψ i ,t 是全局身体方向,Li,tL i ,t 是3D位置,Ui,tU i ,t 是外观特征向量。

特征融合

将3D姿态特征和外观特征通过一个多层感知机(MLP)映射到相同的维度(例如256维),然后将这两个特征向量拼接在一起,形成一个完整的人向量:

训练与推理

使用与前面相同的Transformer架构,输入为融合了外观和姿态信息的人向量。同样使用时间位置编码和轨迹ID位置编码,以帮助模型理解输入序列的顺序。使用二元交叉熵损失函数来训练模型,以最小化模型预测和真实标签之间的差异。

在推理时,模型对输入的融合了外观和姿态信息的3D姿态序列进行处理,输出每个时间步的动作预测结果。

实验

数据集

论文中使用了AVA数据集进行评估,该数据集提供了1Hz的标注,每个演员有1个姿态动作,以及可选的最多3个人-物体交互和3个人-人交互标签。评估标准是使用60个类别的帧级IoU为0.5的平均精度均值(mAP)。此外,还在AVA-Kinetics数据集上进行了评估。

跟踪和数据准备

作者使用PHALP方法在AVA数据集上跟踪人物。PHALP是一个基于检测的跟踪方法,使用Mask R-CNN进行人物检测。在训练阶段,作者使用Mask R-CNN检测来填充非标注帧的人物框,并使用真实框作为每30帧的标注。对于验证集,作者使用了ACAR提供的人物框,并采取了类似的策略来完成跟踪。

模型训练

模型首先在Kinetics-400数据集上进行预训练,使用MViT在每个轨迹上以1Hz的频率运行来生成伪ground truth标注。然后,使用AVA数据集的真实动作标签对预训练模型进行微调。

实验结果

LART方法在AVA v2.2数据集上的标准基准设置上实现了最先进的性能,如下图,与仅使用姿态线索的动作识别模型相比,mAP提高了10.0,与最佳现有技术模型相比提高了2.8 mAP。最佳模型在AVA 2.2数据集上达到了45.1 mAP。

作者展示了在AVA数据集上60个类别的类级性能。LART方法在许多类别上都显示出了相对于现有技术的改进,特别是在那些涉及人-人交互的动作类别中,如舞蹈、格斗等。例如,在舞蹈类别中,LART方法相对于现有技术的相对增益超过了30%。

我们在AVA v2.2的验证样本上展示了MViT和LART的预测。彩色网格表示识别动作的感兴趣人物,而灰色网格表示辅助演员。

前两列展示了获取其他人的动作管对动作预测的好处。在第一列中,橙色人物非常靠近另一个采取拥抱姿势的人物,这使得以更高的概率预测拥抱变得容易。同样,在第二列中,多人之间的明确互动,以及知道其他人也在打架,增加了绿色人物打架动作的置信度,超过了2D识别模型。第三和第四列展示了显式建模3D姿态随时间变化(使用轨迹)对动作识别的好处。图中黄色人物处于骑乘姿势,紫色人物向上看,腿部在一个垂直平面上。最后一列显示了用amodal表示法表示人物的好处。这里,蓝色人物的手被遮挡了,所以2D识别模型没有看到整个动作。然而,SMPL网格是amodal的,因此手仍然存在,这提高了预测关门动作标签的概率。

总结

本文介绍了一种名为LART的新方法,用于提高视频帧中人体动作识别的准确性。LART方法的核心在于结合了3D姿态跟踪和外观特征,以捕捉人体动作的动态变化和上下文信息。

LART方法首先利用PHALP算法进行人物跟踪,将2D检测提升至3D表示,从而获得人物在视频中的轨迹。通过结合SMPL模型参数化的3D姿态和外观特征(如MViT模型提取的特征),LART构建了一个包含时空信息的人向量。使用Transformer网络处理这些向量,模型能够学习个体随时间的动作变化,并预测其动作。

LART方法通过结合3D姿态和外观特征,有效地提高了动作识别的准确性,特别是在复杂和交互性动作的识别上。本研究不仅推动了动作识别技术的发展,也为未来在更细粒度任务上的应用提供了新的可能性,如通过更精确的3D人体重建和场景中物体的显式建模来进一步提升性能。

成功的路上没有捷径,只有不断的努力与坚持。如果你和我一样,坚信努力会带来回报,请关注我,点个赞,一起迎接更加美好的明天!你的支持是我继续前行的动力!"

"每一次创作都是一次学习的过程,文章中若有不足之处,还请大家多多包容。你的关注和点赞是对我最大的支持,也欢迎大家提出宝贵的意见和建议,让我不断进步。"

神秘泣男子

相关推荐
迟迟迟迟迟子几秒前
Lesson 10 GNN
深度学习
dgsiwbe33 分钟前
人工智能-深度学习-神经网络-激活函数
人工智能·深度学习·神经网络
凌虚(失业了求个工作)44 分钟前
AI 声音:数字音频、语音识别、TTS 简介与使用示例
人工智能·后端·python·深度学习·语音识别
黑色叉腰丶大魔王3 小时前
《在 Hadoop 上实现分布式深度学习》
hadoop·分布式·深度学习
z千鑫10 小时前
【C/C++】深入解析 Stack 与 Queue 数据结构(详解):实现原理、应用场景与性能优化
c语言·开发语言·数据结构·c++·深度学习·算法·排序算法
L_cl12 小时前
【NLP 3、深度学习简介】
人工智能·深度学习
weixin_5436628613 小时前
BERT的中文问答系统35
人工智能·深度学习·bert
baijin_cha14 小时前
深度学习基础02_损失函数&BP算法(上)
人工智能·笔记·深度学习