3 Method
3.1. The Overview of Temporal Adaptive Module
正如我们在第1节中讨论的,视频数据通常表现出由相机运动和速度变化等因素引起的复杂时间动态。因此,我们的目标是通过引入具有视频特定内核的时间自适应模块 (TAM) 来解决这个问题,这与 3D CNN 中的共享卷积核不同。我们的TAM可以很容易地集成到现有的2D CNN(例如ResNet)中,以产生视频网络架构,如图2所示。我们将概述TAM,然后描述其技术细节。
形式上,令 X ∈ R^C×T ×H×W 表示视频剪辑的特征图,其中 C 表示通道数,T, H, W 是其时空维度。为了提高效率,TAM 只关注时间建模,空间模式由 2D 卷积捕获。因此,我们首先使用全局空间平均池化来压缩特征图,如下所示:(结合着上边的图二去看,再说一遍一定要结合图去看)
其中 c, t, j, i 是不同维度的索引(在通道、时间、高度和宽度中),^X ∈ RC×T 聚合 X 的空间信息。为简单起见,我们在这里使用φ来表示聚合空间信息的函数。提出的时间自适应模块(TAM)是基于这种压缩的一维时间信号建立的,TAM具有很高的效率。
我们的TAM由两个分支组成:局部分支L和一个全局分支G,旨在学习位置敏感的重要性图来增强鉴别特征,然后产生位置不变权值,以卷积的方式自适应地聚合时间信息。更具体地说,TAM 公式如下:
其中⊗表示卷积操作,⊙是元素乘法。值得注意的是,这两个分支侧重于时间信息的不同方面,其中局部分支试图通过使用时间卷积来捕获短期信息以关注重要特征,而全局分支旨在结合远程时间结构来指导具有全连接层的自适应时间聚合。将内核学习过程分解为局部和全局分支被证明是实验的有效方法。这两个分支将在以下部分中介绍。
3.2. Local Branch in TAM
如上所述,局部分支是位置敏感的,旨在利用短期时间动态来执行视频特定的操作。鉴于短期信息在时间维度上变化缓慢,因此需要学习位置敏感重要性图来区分局部时间语义。(这句话说的是什么意思呢,本文一直说location sensitive importance map,这个map其实就是下边的这个用于逐元素乘法的Frescale(V),局部分支的作用就是生成这个map用于点乘)
如图 2 所示,局部分支由一系列具有 ReLU 非线性的时间卷积层组成。由于局部分支的目标是捕获短期信息,我们将内核大小 K 设置为 3,仅根据局部时间窗口学习重要性图。为了控制模型的复杂性,第一个在BN [14]后的Conv1D将通道数从 C 减少到 C/β。然后,具有 sigmoid 激活的第二个 Conv1D 产生对时间位置敏感的重要性权重 V ∈ R^C×T。最后,时间激励公式如下:
其中⊙表示逐元素乘法,Z∈RC×T ×H×W。为了匹配 X 的大小,Frescale(V ) 通过在空间维度中复制将 V 重新缩放为 ^V ∈ RC×T ×H×W。
3.3. Global Branch in TAM
全局分支是位置不变的,专注于基于长期时间信息生成自适应核。它包含全局上下文信息,并学习生成位置不变和视频自适应卷积核进行动态聚合。(为啥能成成全局自适应层呢?因为他用FC层来进行全局感知,生成卷积核权重,所以不同视频的特征输入进全局分支以后都会产生不同的卷积核,这就是他所说的动态卷积核,他的聚合操作也就是顺理成章的卷积操作了)
Learning the Adaptive Kernels.我们在这里选择为每个视频剪辑生成动态内核,并以卷积方式聚合时间信息。为了简化这个过程并保持高效率,自适应卷积将以通道方式应用。从这个意义上说,学习的自适应内核有望仅在不考虑通道相关性的情况下对时间关系进行建模。因此,我们的 TAM 不会改变输入特征图的通道数,学习到的自适应内核以通道方式对输入特征图进行卷积。更正式地说,对于第 c 个通道,自适应内核学习如下:
其中 Θc ∈ R^K 是第 c 个通道生成自适应内核(聚合权重),K 是自适应内核大小,δ 表示激活函数 ReLU。自适应核也是基于压缩特征图 ^Xc ∈ R^T 学习的,没有考虑空间结构来提高建模效率。但是与本地分支不同,我们使用全连接 (fc) 层 F 通过利用长期信息来学习自适应内核。学习到的具有全局感受野的自适应内核,因此可以在全局上下文的指导下聚合时间特征。为了提高全局分支的建模能力,我们堆叠了两个 fc 层,学习到的内核使用 softmax 函数进行归一化以产生正聚合权重。学习到的聚合权重 Θ = {Θ1, Θ2,..., ΘC } 将用于执行视频自适应卷积。
Temporal Adaptive Aggregation.在引入自适应聚合之前,我们可以回顾香草时间卷积如何聚合时空视觉信息:
其中 W 是卷积核的权重,在推理中对输入视频样本没有关注。我们认为这种方式忽略了视频中的时间动态,因此提出了一种视频自适应聚合:
其中 G 可以看作是一个内核生成器函数。G 生成的内核可以执行自适应卷积,但共享跨时间维度,仍然保持不变。为了解决这个问题,本地分支生成具有位置敏感重要性图的 Z。整个过程可以表示如下:
其中 · 表示标量乘法,Y 是输出特征图(Y ∈ R^C×T ×H×W)。
总之,TAM 提出了一个具有独特聚合方案的自适应模块,其中位置敏感激励和位置不变聚合都源自输入特征,但专注于捕获不同的结构(即短期和长期时间结构)。
3.4. Exemplar: TANet
我们在这里打算描述如何实例化 TANet。时间自适应模块可以赋予现有的二维cnn对视频片段中不同时间结构进行建模的强大能力。在实践中,TAM 只会导致有限的计算开销,但明显提高了不同类型数据集的性能。
ResNets[12]被用作骨干来验证TAM的有效性。如图2所示,在第一个Conv2D之后,TAM被嵌入到ResNet-Block中,这很容易将普通的ResNet-Block变成TA-Block。这种方式不会过度改变网络的拓扑结构,并且可以重用 ResNet-Block 的权重。假设我们将 T 帧采样为输入剪辑,fc 后 T 帧的分数将通过平均池化聚合以产生剪辑级别的分数。在 fc 层之前没有进行时间下采样。广泛的实验在第 4 节中进行,以证明 TANet 的灵活性和有效性。
Discussions.我们注意到局部分支的结构类似于SENet[13]和STC[5]。第一个明显区别是局部分支不挤压时间维度。因此,我们使用时间 1D 卷积而不是 fc 层作为基本层。两层设计只是在非线性拟合能力和模型复杂性之间寻求权衡。局部分支提供位置敏感信息,从而解决了全局分支对时间位置不敏感的问题。
TSN [40] 和 TSM [23] 仅使用固定方案聚合时间特征,但 TAM 可以产生视频特定的权重来自适应地聚合不同阶段的时间特征。在极端情况下,当学习动态内核权重 Θ 等于 [0, 1, 0] 时,TAM 中的全局分支退化为 TSN。从另一个角度来看,如果内核权重 Θ 设置为 [1, 0, 0] 或 [0, 0, 1],则全局分支可以转化为 TSM。似乎我们的 TAM 理论上提供了一种更通用和灵活的形式来对视频数据进行建模。
当它指的是3D卷积[15]时,所有输入样本共享相同的卷积核,同时不知道视频中的时间多样性。此外,我们的全局分支本质上执行一个视频自适应卷积,其滤波器的大小为1 × k × 1 × 1,而正常3D卷积中的每个滤波器的大小为C × k × k,其中C为通道数,k为接收野。因此,我们的方法比 3D CNN 更有效。与现有的一些动态卷积 [3, 45] 不同,TAM 更灵活,可以直接生成内核权重来执行视频自适应卷积。