（论文阅读32/100）Flowing convnets for human pose estimation in videos

|----|------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 32.文献阅读笔记 |||
| 简介 | 题目 | Flowing convnets for human pose estimation in videos |
| 简介 | 作者 | Tomas Pfister, James Charles, and Andrew Zisserman, ICCV, 2015. |
| 简介 | 原文链接 | https://arxiv.org/pdf/1506.02897.pdf |
| 简介 | 关键词 | Human Pose Estimation in Videos |
| 简介 | 研究问题 | 视频中的人体姿态估计 |
| 简介 | 研究方法 | 总体流程如下：一、使用光流将多帧信息结合起来，从而从时间上下文中获益。输入t以及其前后n帧rgb图片，相邻帧的热图可以使用光流进行扭曲和对齐，从而有效地在时间上传播位置信息。离t帧越远的帧权重越低。邻近帧作为强有力的 "专家意见"，通过端对端反向传播来学习专家池权重。分别回归输入图像中每个关节的关节位置热图。该热图（最后一个卷积层 conv8 的输出）是一个固定大小的 i × j × k 维立方体（此处为 64 × 64 × 7，表示 k = 7 个上半身关节）。在训练时，通过在ground truth关节位置放置一个方差固定的高斯，为每个关节分别合成ground truth标签热图 l2 loss：对predicted heatmap and the synthesised（合成） ground truth heatmap.之间的像素平方差进行惩罚回归热图而不是（x, y）坐标的好处：可以理解失败并直观地看到网络的 "思考过程"；由于设计上允许网络的输出是多模态的，即允许在多个空间位置有置信度，因此学习变得更加容易：在训练的早期，一个给定的关节可能会在多个位置发生反应；随着训练的进行，错误的反应会慢慢被抑制。相反，如果输出只有手腕（x，y）坐标，那么网络只有在预测正确时才会有较低的损失（即使它对正确的位置 "越来越有信心"）。提高热图的空间分辨率：(i) 使用最小池化（只有两个 2 × 2 最大池化层）；(ii) 所有步长都是统一的（这样分辨率就不会降低）。除 conv9（池化层）外，所有层后都有 ReLU。卷积层代替全连接层二、在初始热图之外增加卷积层，以学习人体布局的隐式空间模型。这些层能够学习人体各部位之间的依赖关系。这些 "空间融合 "层可以消除运动学上无法实现的姿势估计失败。学习关节的空间依赖关系：Spatial fusion layers （conv7）作为输入，学习人体位置之间的依赖关系，将 conv7 和 conv3（跳转层）的连接作为输入，并通过另外五个带有 ReLU 的卷积层进行反馈，大内核用于扩大网络的感受野。在该网络的末端附加了一个单独的损失层，并在整个网络中进行反向传播。 |
| 简介 | 研究结论 | 在"野外数据集"上表现远优于目前技术水平。 |
| 简介 | 创新不足 | 未涉及多人检测，只检测人物上半身 |
| 简介 | 额外知识 | 光流：计算机视觉--光流法(optical flow)简介-CSDN博客是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流计算使用FastDeepFlow |