(论文阅读32/100)Flowing convnets for human pose estimation in videos

|----|------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 32.文献阅读笔记 |||
| 简介 | 题目 | Flowing convnets for human pose estimation in videos |
| 简介 | 作者 | Tomas Pfister, James Charles, and Andrew Zisserman, ICCV, 2015. |
| 简介 | 原文链接 | https://arxiv.org/pdf/1506.02897.pdf |
| 简介 | 关键词 | Human Pose Estimation in Videos |
| 简介 | 研究问题 | 视频中的人体姿态估计 |
| 简介 | 研究方法 | 总体流程如下: 一、使用光流将多帧信息结合起来,从而从时间上下文中获益。 输入t以及其前后n帧rgb图片,相邻帧的热图可以使用光流进行扭曲和对齐,从而有效地在时间上传播位置信息。离t帧越远的帧权重越低。 邻近帧作为强有力的 "专家意见",通过端对端反向传播来学习专家池权重。 分别回归输入图像中每个关节的关节位置热图。该热图(最后一个卷积层 conv8 的输出)是一个固定大小的 i × j × k 维立方体(此处为 64 × 64 × 7,表示 k = 7 个上半身关节)。在训练时,通过在ground truth关节位置放置一个方差固定的高斯,为每个关节分别合成ground truth标签热图 l2 loss:对predicted heatmap and the synthesised(合成) ground truth heatmap.之间的像素平方差进行惩罚 回归热图而不是(x, y)坐标的好处:可以理解失败并直观地看到网络的 "思考过程";由于设计上允许网络的输出是多模态的,即允许在多个空间位置有置信度,因此学习变得更加容易:在训练的早期,一个给定的关节可能会在多个位置发生反应;随着训练的进行,错误的反应会慢慢被抑制。相反,如果输出只有手腕(x,y)坐标,那么网络只有在预测正确时才会有较低的损失(即使它对正确的位置 "越来越有信心")。 提高热图的空间分辨率:(i) 使用最小池化(只有两个 2 × 2 最大池化层);(ii) 所有步长都是统一的(这样分辨率就不会降低)。除 conv9(池化层)外,所有层后都有 ReLU。 卷积层代替全连接层 二、在初始热图之外增加卷积层,以学习人体布局的隐式空间模型。这些层能够学习人体各部位之间的依赖关系。这些 "空间融合 "层可以消除运动学上无法实现的姿势估计失败。 学习关节的空间依赖关系:Spatial fusion layers (conv7)作为输入,学习人体位置之间的依赖关系,将 conv7 和 conv3(跳转层)的连接作为输入,并通过另外五个带有 ReLU 的卷积层进行反馈,大内核用于扩大网络的感受野。在该网络的末端附加了一个单独的损失层,并在整个网络中进行反向传播。 |
| 简介 | 研究结论 | 在"野外数据集"上表现远优于目前技术水平。 |
| 简介 | 创新不足 | 未涉及多人检测,只检测人物上半身 |
| 简介 | 额外知识 | 光流:计算机视觉--光流法(optical flow)简介-CSDN博客 是空间运动物体在观察成像平面上的像素运动的瞬时速度。 光流计算使用FastDeepFlow |

相关推荐
m0_743106464 小时前
论文笔记:no pose,no problem-基于dust3r输出GS参数实现unpose稀疏重建
论文阅读·深度学习·计算机视觉·3d·几何学
weixin_443290694 小时前
【论文阅读】InstructPix2Pix: Learning to Follow Image Editing Instructions
论文阅读·人工智能·计算机视觉
weixin_4432906910 小时前
【论文阅读】Prompt-to-Prompt Image Editing with Cross Attention Control
论文阅读·prompt
源于花海13 小时前
论文学习(四) | 基于数据驱动的锂离子电池健康状态估计和剩余使用寿命预测
论文阅读·人工智能·学习·论文笔记
新手小白勇闯新世界1 天前
点云论文阅读-1-pointnet++
论文阅读·人工智能·深度学习·神经网络·计算机视觉
小菜日记^_^1 天前
BEAGLE: Forensics of Deep Learning Backdoor Attack for Better Defense(论文阅读)
论文阅读·人工智能·深度学习·sp·ai安全·backdoor 后门攻击·安全四大
衬衫chenshan2 天前
【论文阅读】(Security) Assertions by Large Language Models
论文阅读·人工智能·语言模型
YMWM_2 天前
论文阅读《BEVFormer》
论文阅读
LinKouun2 天前
论文笔记 SuDORMRF:EFFICIENT NETWORKS FOR UNIVERSAL AUDIO SOURCE SEPARATION
论文阅读
Matrix_112 天前
论文阅读:DualDn Dual-domain Denoising via Differentiable ISP
论文阅读·人工智能·计算摄影