3D姿势和跟踪的人体行为识别

🏡作者主页：点击！

🤖编程探索专栏：点击！

⏰️创作时间：2024年11月28日21点20分

神秘男子影,

秘而不宣藏。

泣意深不见,

男子自持重,

子夜独自沉。

论文链接

点击开启你的论文编程之旅https://www.aspiringcode.com/content?id=17323757482265&uid=778c699eab064a78af32362069bf7ab0

引言

本文介绍的文章是《On the Benefits of 3D Pose and Tracking for Human Action Recognition》（CVPR 2023）。

在流体力学中，拉格朗日和欧拉描述方式是观察流体运动的两种方式。拉格朗日观点是指观察者跟随单个流体粒子，随着它在空间和时间中移动，可以想象成坐在船上顺流而下。欧拉观点则关注流体流过特定空间位置的情况，随着时间的变化，可以想象成坐在河边观察水流过固定位置。

这些概念与我们分析人类活动视频的方式非常相关。在欧拉观点中，我们会关注特定位置的特征向量，并考虑其随时间的演变。而在拉格朗日观点中，我们会跟踪个体（例如一个人）在时空中的移动，并跟踪与之相关的特征向量。

在这项工作中，我们采取拉格朗日视角来分析人类行为。通过利用最近的3D跟踪方法PHALP和HMR 2.0，我们能够恢复人物轨迹，并使用这些轨迹来识别行为。尽管人体姿态随时间的变化是一个强烈的信号，但一些行为需要更多的上下文信息，包括外观和场景。

因此，本文还探讨了将姿态与来自人和场景的外观信息融合的好处，并提出了一种在拉格朗日框架内结合这些信息的方法，即拉格朗日行动识别（LART），它通过融合3D姿态和上下文化的外观信息来提高行为识别的性能。

LART模型

理解人类行为需要考虑多种信息，包括头部和视线方向、人体姿态和动态、与物体或其他人或动物的互动、整个场景、活动背景等。一些简单的行为可以通过姿态和姿态动态单独识别，对于更复杂的行为，需要结合多种信息源进行推理，例如识别某人正在用刀具切番茄时，看到刀具和番茄是有帮助的。

作者提出了两种设计选择：一是使用"解耦"表示，明确地以模块化方式表示姿态、交互物体等元素；二是将视频像素直接输入到大容量神经网络模型中，依赖模型自己来识别区分性信息。

仅用3D姿态进行动作识别

在动作识别领域，3D人体姿态是一个强有力的特征，因为它包含了动作的空间和时间信息。研究人员试图探索仅使用这种3D姿态信息而不依赖于其他视觉内容（如场景的外观和上下文）是否能够实现有效的动作识别。

数据获取

3D姿态数据获取：通过使用PHALP方法，从视频中提取每个人的3D姿态和位置信息。PHALP能够将2D检测提升到3D，从而链接多帧中的人物并获取其3D表示。
SMPL参数：使用SMPL模型参数化3D人体姿态，包括关节角度（207个参数，23个关节每个关节3个角度）和全局身体方向（3x3的旋转矩阵）以及身体形状（10个参数）。
3D位置信息：除了姿态，还包括每个人在相机坐标系中的3D位置（3个参数），这有助于理解人与人之间的相对位置和交互。

人向量和动作管构建

人向量 ：在时间 tt 的人向量 Hi,tH i ,t 被定义为 Hi,t=Pi,t={θi,t,ψi,t,Li,t}H i ,t =P i ,t ={θ i ,t ,ψ i ,t ,L i ,t}，其中包含了3D姿态和位置信息。
动作管（Action-Tube） ：对于视频中的每个人 ii ，构建一个动作管 ΦiΦi ，它包含了该人在所有时间帧 TT 的人向量 Hi,tH i ,t。

模型架构

模型的输入是基于SMPL模型参数化的3D人体姿态，包括关节角度、全局身体方向和身体形状，以及人在相机坐标系中的3D位置。每个人在时间 tt 的表示 Hi,tH i ,t 包含了这些3D姿态和位置信息，被编码为一个高维向量。

使用一个多层感知机（MLP）将3D姿态和位置信息从原始的高维空间投影到一个低维空间，通常是256维或512维，以便于模型处理。

为了使模型能够理解时间序列数据，对每个时间步进行位置编码，使用正弦和余弦函数的变换来表示时间信息。除了时间，轨迹ID也进行了位置编码，以区分视频中不同的人。对于时间和轨迹ID的位置编码，使用2D正弦和余弦函数作为位置编码，具体公式如下：

其中，tt 是时间索引，ii 是轨迹ID，r,s∈[0,d/2)r ,s ∈[0,d /2) 指定维度，DD 是token的维度。

模型使用标准的Transformer架构，Transformer网络的输出通过一个线性层，用于预测动作类别。在添加了时间和身份的位置编码后，每个人标记被传递到Transformer网络。第 (t+i×N)(t +i ×N) 个标记由下式给出：

这里，fprojf proj 是一个线性层，用于将人向量 Hi,tH i ,t 投影到更高维度的空间，PE(t,i,:)P E (t ,i,:) 表示所有位置编码的向量。

使用二元交叉熵损失函数来训练模型，以最小化模型预测和真实标签之间的差异。

从外观和3D姿态识别动作

在许多情况下，仅依赖3D姿态信息不足以准确识别复杂的动作。例如，切菜、打球等动作不仅依赖于人体的运动轨迹，还需要考虑与环境中物体的交互。3D姿态提供了关于人体运动的几何信息，而外观特征则提供了关于场景和人物的上下文信息。将这两种信息结合，可以提升模型对动作的理解能力。

模型架构

外观特征提取

使用预训练的2D动作识别模型（如MViT，经过MaskFeat预训练）来提取每个轨迹的外观特征。这个模型能够从视频帧中捕捉到丰富的视觉信息，包括背景、物体和人物的外观。在每个轨迹的特定时间点 tt ，提取的外观特征向量记为 Ui,tU i ,t。

轨迹和频率

对于每个轨迹 ΦiΦi ，在一定的时间频率 fsf s 下运行2D动作识别模型，以获取与该轨迹相关的外观特征。通过这种方式，模型能够在时间上捕捉到动作的动态变化。

人向量的构建

每个人的向量 Hi,tHi ,t 现在包含了3D姿态信息和外观信息，形式为：

其中，θi,tθ i ,t 是关节角度，ψi,tψ i ,t 是全局身体方向，Li,tL i ,t 是3D位置，Ui,tU i ,t 是外观特征向量。

特征融合

将3D姿态特征和外观特征通过一个多层感知机（MLP）映射到相同的维度（例如256维），然后将这两个特征向量拼接在一起，形成一个完整的人向量：

训练与推理

使用与前面相同的Transformer架构，输入为融合了外观和姿态信息的人向量。同样使用时间位置编码和轨迹ID位置编码，以帮助模型理解输入序列的顺序。使用二元交叉熵损失函数来训练模型，以最小化模型预测和真实标签之间的差异。

在推理时，模型对输入的融合了外观和姿态信息的3D姿态序列进行处理，输出每个时间步的动作预测结果。

实验

数据集

论文中使用了AVA数据集进行评估，该数据集提供了1Hz的标注，每个演员有1个姿态动作，以及可选的最多3个人-物体交互和3个人-人交互标签。评估标准是使用60个类别的帧级IoU为0.5的平均精度均值（mAP）。此外，还在AVA-Kinetics数据集上进行了评估。

跟踪和数据准备

作者使用PHALP方法在AVA数据集上跟踪人物。PHALP是一个基于检测的跟踪方法，使用Mask R-CNN进行人物检测。在训练阶段，作者使用Mask R-CNN检测来填充非标注帧的人物框，并使用真实框作为每30帧的标注。对于验证集，作者使用了ACAR提供的人物框，并采取了类似的策略来完成跟踪。

模型训练

模型首先在Kinetics-400数据集上进行预训练，使用MViT在每个轨迹上以1Hz的频率运行来生成伪ground truth标注。然后，使用AVA数据集的真实动作标签对预训练模型进行微调。

实验结果

LART方法在AVA v2.2数据集上的标准基准设置上实现了最先进的性能，如下图，与仅使用姿态线索的动作识别模型相比，mAP提高了10.0，与最佳现有技术模型相比提高了2.8 mAP。最佳模型在AVA 2.2数据集上达到了45.1 mAP。

作者展示了在AVA数据集上60个类别的类级性能。LART方法在许多类别上都显示出了相对于现有技术的改进，特别是在那些涉及人-人交互的动作类别中，如舞蹈、格斗等。例如，在舞蹈类别中，LART方法相对于现有技术的相对增益超过了30%。

我们在AVA v2.2的验证样本上展示了MViT和LART的预测。彩色网格表示识别动作的感兴趣人物，而灰色网格表示辅助演员。

前两列展示了获取其他人的动作管对动作预测的好处。在第一列中，橙色人物非常靠近另一个采取拥抱姿势的人物，这使得以更高的概率预测拥抱变得容易。同样，在第二列中，多人之间的明确互动，以及知道其他人也在打架，增加了绿色人物打架动作的置信度，超过了2D识别模型。第三和第四列展示了显式建模3D姿态随时间变化（使用轨迹）对动作识别的好处。图中黄色人物处于骑乘姿势，紫色人物向上看，腿部在一个垂直平面上。最后一列显示了用amodal表示法表示人物的好处。这里，蓝色人物的手被遮挡了，所以2D识别模型没有看到整个动作。然而，SMPL网格是amodal的，因此手仍然存在，这提高了预测关门动作标签的概率。

总结

本文介绍了一种名为LART的新方法，用于提高视频帧中人体动作识别的准确性。LART方法的核心在于结合了3D姿态跟踪和外观特征，以捕捉人体动作的动态变化和上下文信息。

LART方法首先利用PHALP算法进行人物跟踪，将2D检测提升至3D表示，从而获得人物在视频中的轨迹。通过结合SMPL模型参数化的3D姿态和外观特征（如MViT模型提取的特征），LART构建了一个包含时空信息的人向量。使用Transformer网络处理这些向量，模型能够学习个体随时间的动作变化，并预测其动作。

LART方法通过结合3D姿态和外观特征，有效地提高了动作识别的准确性，特别是在复杂和交互性动作的识别上。本研究不仅推动了动作识别技术的发展，也为未来在更细粒度任务上的应用提供了新的可能性，如通过更精确的3D人体重建和场景中物体的显式建模来进一步提升性能。

成功的路上没有捷径，只有不断的努力与坚持。如果你和我一样，坚信努力会带来回报，请关注我，点个赞，一起迎接更加美好的明天！你的支持是我继续前行的动力！"

"每一次创作都是一次学习的过程，文章中若有不足之处，还请大家多多包容。你的关注和点赞是对我最大的支持，也欢迎大家提出宝贵的意见和建议，让我不断进步。"

神秘泣男子