论文阅读三——端到端的帧到凝视估计

论文阅读三------端到端的帧到凝视估计

主要内容

文章从端到端的方法出发，提出了根据heatmap和sprase depth map生成凝视原点和通过图像帧获得凝视方向，将两者结合获得注视点（PoG），和先前传统的通过裁剪人脸眼睛和脸部特征有所区别，并且PoG误差较之前的小。

研究问题

文章所需要解决的问题是远程基于网络摄像头的凝视估计，即如何通过通过单个用户面向的、远程放置的摄像头捕捉用户的图像，然后利用这些图像来估计用户的凝视方向的问题。譬如远程RGB图像凝视估计(使用面向用户的单个RGB摄像头，而无需额外工具（如红外光源）来更容易地解决凝视估计问题)

在传统的解决方法中，有着以下两点难题：

传统的学习型远程凝视估计方法通常需要将小的裁剪图像 (眼睛或者面部图像)作为输入，以预测凝视方向。
这些输入以及凝视起源 必须根据面部特征的预定义过程生成，通常通过数据规范化等方式。

使用基于卷积神经网络（CNN）的学习型方法（输入是简单的裁剪图像 / 通过"数据归一化"过程产生的图像块）不会考虑到3D头部姿势，而大幅度头部旋转的情况下会导致不同的尺寸和图像比例。为了解决这个问题，论文提出了**"End-to-end Frame-to-Gaze Estimation（EFE）"方法，直接从相机帧**中回归3D凝视起源和3D凝视方向，允许模型适应新的相机-屏幕几何结构，方法避免了昂贵的数据规范化步骤。但是，不可忽视的是原始帧中眼部区域较小，且需要对凝视起源进行准确估计。

因此，文章作者作出了这样的模型设计：

使用全卷积U-Net架构预测凝视起源的2D热图和深度图。
利用多层感知机（MLP）从U-Net架构的瓶颈特征中预测3D凝视方向。
使用相机内参和外参参数，通过可微分方式将凝视射线与已知屏幕平面相交，以得到Point-of-Gaze（PoG）。

文章的解题思路

文章在摘要前便直接展示了一张图，体现了自身模型与传统的凝视估计不同，图像如下：

端到端帧到视线估计方法**(EFE)被训练成直接从输入的摄像机帧预测眼睛的凝视**，而传统方法有许多的预处理模块（人脸检测模块、地标检测模块、数据归一化模块，然后进行凝视估计(视差估计)），而文章表示他们在跳过这些过程的情况下，还可以提升性能！

从论文的第一张图片以及摘要我们可以得到作者提出的EFE模型和过去大部分传统模型的差别：

传统的凝视方法：需要一个或多个眼部或面部区域的裁剪作为输入，并产生一个凝视方向向量作为输出。

根据面部标志 从输入摄像头帧中裁剪眼部/面部补丁，通过拟合通用的3D面部模型估计3D头部姿势 ，进而生成3D凝视起源（上图没体现）。

在摄像机坐标系中输出凝视方向（是通过眼睛的凝视行为进行估计的，而不仅仅是头部姿势的估计），通过将预测的凝视方向与在数据归一化步骤中获得的凝视原点合成，可以构建凝视射线。

但是传统凝视方法中的裁剪有好处也有坏处，如下：

好处：在眼部区域获得更高的分辨率，并且减少混淆因素（衣服、头发）。

坏处：眼部/面部裁剪过程昂贵、容易出错，并且对于不同的方法具有特定的实现。

EFE方法：构建一个模型，实现以端到端的方式直接从相机帧中估计一个包括凝视起源和凝视方向的6D凝视射线（3D凝视原点+3D凝视方向），而无需对面部或眼睛进行任何裁剪。

总之，文章提出了一种无需进行面部或眼睛裁剪即可直接从原始帧进行凝视估计的方法，在实现简化流程、降低成本的同时，实现效果可以与当今最先进的模型进行媲美。

文章的主要结构

为了通过相机帧来确定人眼的注视点（PoG），文章使用了以下结构：

如上图，作者提出了一种类似U-Net的体系结构，其中输出特征被映射到图像上的2D凝视原点位置 和稀疏深度图 中，它们结合在一起来产生3D凝视原点；使用瓶颈特征作为输入，利用MLP预测三维视线方向（POG是使用预测的凝视原点 和凝视方向 以及相机转换矩阵来计算的）。

(注：感觉这里的系数深度图的图像是有问题的，可能是作者为了美观而将后面的Gaze Origin Depth的图像前移了，否则不会出现范围性的深度结果。)

预测凝视原点
- 预测2D凝视起源热图和稀疏深度图：使用 U-Net-like 结构，模型预测一个 2D 凝视起源热图和一个稀疏深度图。
- 热图和深度图的训练损失：
  - 热图的预测，使用均方误差损失（MSE）用于预测热图，获得热图后通过softargmax获得。
  L h e a t m a p = 1 n ∑ i = 1 n ∣ ∣ h − h ^ ∣ ∣ 2 2 n = W × H h : 预测的凝视原点在相机帧上的 2 D 位置 h ^ 是通过以凝视原点为中心绘制二维高斯而生成的地面真实热图通过损失函数获得最终的热图后，使用 s o f t − a r g m a x 来确定最终的凝视点坐标 L_{heatmap}=\frac{1}{n}\sum_{i=1}^{n}||h-\hat{h}||_2^2\\ n=W×H\\ h:预测的凝视原点在相机帧上的2D位置 \\ \hat{h}是通过以凝视原点为中心绘制二维高斯而生成的地面真实热图\\ 通过损失函数获得最终的热图后，使用soft-argmax来确定最终的凝视点坐标 Lheatmap=n1i=1∑n∣∣h−h^∣∣22n=W×Hh:预测的凝视原点在相机帧上的2D位置h^是通过以凝视原点为中心绘制二维高斯而生成的地面真实热图通过损失函数获得最终的热图后，使用soft−argmax来确定最终的凝视点坐标
  
  之所以预测凝视原点为热图的概率分布而不是固定的某个点，是因为数据集的ground truth本身存在一定的误差，可以更好地应对凝视原点位置定义的模糊性和地面实况标签的误差。
  - 对于 2D 凝视起源位置的预测，同样使用均方误差损失。深度图的预测则使用 L1 范式损失，该损失函数仅考虑到对于可见的用户面部区域 的点。-
    2D凝视位置损失：
    L g = ∣ ∣ g − g ^ ∣ ∣ 2 2 g ^ 是在摄像头帧上的真实 2 D 凝视位置。 L_g=||g-\hat{g}||_2^2\\ \hat{g}是在摄像头帧上的真实 2D 凝视位置。 Lg=∣∣g−g^∣∣22g^是在摄像头帧上的真实2D凝视位置。

z = h ⋅ d L d = ∣ ∣ z − z ^ ∣ ∣ 1 z ^ 是真实的深度值（距离） , d : 预测稀疏深度图 z=h·d\\ L_d=||z-\hat{z}||_1\\ \hat{z}是真实的深度值（距离）,d:预测稀疏深度图 z=h⋅dLd=∣∣z−z^∣∣1z^是真实的深度值（距离）,d:预测稀疏深度图

计算 3D 凝视起源 ：通过将2D图像坐标转换为世界坐标，利用相机内参矩阵 K，计算 3D 凝视起源。

python 复制代码

 # 相机参数矩阵K
 K = np.array([
         [fx, 0, cx],
         [0, fy, cy],
         [0, 0, 1]])
 # fx,fy是相机的焦距
 # cx,cy是相机的中心点 ```

热图通过soft-argmax获得一个2D凝视点坐标g=(x,y)，设该点深度为d。通过相机内参矩阵可以将2D凝视点坐标进行归一化，如下操作：
u = x − c x f x v = y − c y f y u=\frac{x-c_x}{f_x}\\ v=\frac{y-c_y}{f_y} u=fxx−cxv=fyy−cy

所以得到归一化后的点g1=(u,v,1)，其中数字1是为了让坐标可以进行齐次坐标转换。