Multi-Task Learning based Video Anomaly Detection with Attention 论文阅读

Multi-Task Learning based Video Anomaly Detection with Attention

Abstract
[1. Introduction](#1. Introduction)
[2. Previous work](#2. Previous work)
[3. Method](#3. Method)
- [3.1. Multi-task learning](#3.1. Multi-task learning)
- [3.2. The appearance-motion branch](#3.2. The appearance-motion branch)
- [3.3. The motion branch](#3.3. The motion branch)
- [3.4. Spatial and channel attention](#3.4. Spatial and channel attention)
- [3.5. Attention to distance and direction](#3.5. Attention to distance and direction)
- [3.6. Inference](#3.6. Inference)
[4. Experiments and results](#4. Experiments and results)
- [4.1. Datasets](#4.1. Datasets)
- [4.2. Evaluation metric](#4.2. Evaluation metric)
- [4.3. Implementation details](#4.3. Implementation details)
- [4.4. Future frame prediction](#4.4. Future frame prediction)
- [4.5. Qualitative evaluation](#4.5. Qualitative evaluation)
- - [4.5.1 Importance of attention](#4.5.1 Importance of attention)
- [4.6. Quantitative evaluation](#4.6. Quantitative evaluation)
- [4.7. Ablation study](#4.7. Ablation study)
[5. Conclusion](#5. Conclusion)
6.阅读总结

文章信息：

原文链接：https://ieeexplore.ieee.org/document/10208994/

源代码：无

发表于：CVPR 2023

Abstract

基于多任务学习的视频异常检测方法将多个代理任务结合在不同的分支中，以便在不同情境中检测视频异常。然而，大多数现有方法存在以下一些缺点：

I) 它们的代理任务组合方式不是以互补且可解释的方式进行的。

II) 对象的类别没有得到有效考虑。

III) 并未覆盖所有运动异常情况。

IV) 上下文信息未参与异常检测。

为了解决这些问题，我们提出了一种新颖的基于多任务学习的方法，它结合了互补的代理任务以更好地考虑运动和外观特征。在一个分支中，受语义分割和未来帧预测任务的能力启发，我们将它们合并成一个新任务，即未来语义分割预测，以学习正常对象类别和一致的运动模式，并同时检测相应的异常。在第二分支中，我们利用光流幅度估计进行运动异常检测，并提出了一种注意机制，以在正常运动建模中引入上下文信息，并关注对象部分、运动方向和对象与摄像机之间的距离，以检测运动异常。我们的定性结果表明，所提出的方法有效地考虑了对象类别，并注意了上述决定性因素，从而实现了精确的运动建模和更好的运动异常检测。此外，定量结果显示我们的方法相对于最先进的方法具有优越性。

1. Introduction

随着监控摄像头的增多，对视频内容的自动分析需求不断增加。通常，该分析的目的是检测视频中的异常事件（即在给定背景下不熟悉或意外的事件[10, 20]），这可能需要立即采取行动。由于异常事件的罕见性和多样性，通常很难获得足够的训练异常样本用于监督训练。因此，该领域的研究人员更加关注半监督方法，其中通过代理任务（即间接帮助实现目标目标的任务）学习正常情况，通过找到与正常情况的偏差来检测异常。例如，在视频异常检测（VAD）中，当前帧的重建或遮罩帧的预测是常见的代理任务，训练模型对于正常情况显示出对异常的较差的重建或预测结果，而估计的错误决定了异常分数。研究人员在他们的方法中的多个分支中采用不同的代理任务，以考虑不同的模态性（主要是外观和运动）。不同的代理任务旨在相互补充，因此被组合以实现更高的性能。例如，Nguyen和Meunier [47] 提出了一个两流网络，其中一个流模拟外观特征并检测基于外观的异常，而另一个流模拟运动模式并寻找运动异常。已经提出了多种类似的策略，每个工作都提出了不同的代理任务组合和不同的异常分数融合策略[7, 16, 20, 26, 47, 57]。最近，研究人员（例如 [11, 20, 29]）提议添加更多的代理任务（即基于多任务学习的方法）以涵盖更多的时空模式。多任务学习方法中的关键问题是选择多少/哪些代理任务才能达到互补并提高性能。通常，添加更多的代理任务可能会导致更好的性能；但是，这会增加计算负担和运行时间。因此，设计目标是提出最少量的互补任务，考虑它们在检测多种异常类型中的能力和不足，以覆盖所有必要的属性。值得注意的是，可解释的异常检测要求在选择每个代理任务背后有一个强有力的解释。

尽管最近的方法取得了更好的结果，它们仍然要么没有充分考虑运动模式，要么没有明确分析对象类别进行异常检测。为了解决这些缺点，受到[20]的启发，我们提出了一种改进的基于多任务学习的视频异常检测（VAD）方法。与[20]不同，并借鉴语义分割任务在VAD中考虑对象类别的成功[7]，我们在外观分支中以一种改进的方式利用语义分割代理任务的能力。此外，与[20]相反，后者在对象级别执行异常检测，我们提出了一种全面的VAD方法，避免了失去位置信息的缺点。

Nguyen等人[47]提出从单帧估计光流（OF）以建模运动模式并检测相关的异常。然而，从单帧估计光流可能对运动网络造成困扰。为了克服这个问题，Baradaran和Bergevin [7]提出使用每个对象的光流幅度（OFM）估计来检测运动异常。尽管他们的方法解决了上述问题，但他们的方法在运动估计中忽略了运动方向信息。因此，他们的方法不能有效检测由于突然的方向变化引起的异常（例如打斗、跳跃等）。此外，为了使每个对象与其运动幅度（即基于像素的对象在帧间位移）相对应，一些重要因素，如运动方向、对象部分和对象与摄像机的距离，未被考虑在内。

我们提出了一种解决先前问题的新方法。所提出的方法利用了两种不同的注意力机制。它利用了空间和通道注意力网络，并将其应用于编码器中间层的特征图，帮助网络考虑对象的部分（手、脚等）以进行运动幅度估计。此外，设计了一个新的注意力网络，帮助估计每个对象的运动幅度，关注其与摄像机的距离和运动方向（详见第3节的细节）。最后，利用未来帧预测作为另一个代理任务，以找到突发运动变化。为了减小网络的大小，语义分割和未来帧预测任务被合并成一个新颖的未来语义分割预测任务，由单个网络执行。

概括而言，我们的贡献是：

一种新颖的基于多任务学习的视频异常检测方法，以一种可解释的方式结合了三个互补的代理任务，即"未来帧预测"、"语义分割"和"光流幅值预测"，以更全面地考虑外观和运动特征进行异常检测。
将语义分割和未来帧预测任务结合成一个新颖的代理任务，以寻找外观和运动异常。据我们所知，这是首次引入未来语义分割预测代理任务用于视频异常检测的工作。
一种新颖的注意力网络，用于估计对象的精确运动幅度，关注其运动方向和与摄像机的距离。这引入了一种新颖的方式，在建模法线和检测相应异常时引入上下文信息。我们还在运动估计分支的主干部分采用了空间和通道注意力机制，以增强有意义的特征并生成特定于不同对象部分的估计。

我们提出的方法的总体视图如图1所示。

2. Previous work

研究人员通过各种代理任务，特别是帧重建[1, 3, 13, 18, 19, 22--25, 28, 30, 37, 38, 40, 43, 45, 48, 51, 52, 59, 60, 64]或预测任务[4, 5, 12, 15, 32--34, 36, 39, 42, 44, 46, 54, 56, 58, 62, 63, 65, 67]制定了视频异常检测，假设在法线上训练的无监督网络（例如UNet）生成的重建/预测误差较大表示异常。然而，所有先前提到的方法都考虑用于异常检测的低级特征（颜色、强度等），并且在评估中没有明确考虑对象的类别。以对象为中心的视频异常检测方法[9, 17, 21, 26, 27, 53, 55, 61]通过预训练的对象检测器从帧中检测和裁剪对象，但它们在训练和推断中只考虑低级特征。受[8, 31]的启发，Baradaran和Bergevin [7]提出了一种基于知识蒸馏的视频异常检测方法，使用语义分割作为代理任务，因此能够明确考虑对象的类别进行异常检测。

Baradaran和Bergevin [6]报告称，单分支方法（例如[13, 24]）不能有效覆盖所有运动情况，通常被外观特征所主导。因此，为了解决单流方法的缺点，研究人员[7, 16, 26, 47]提出了双流视频异常检测方法，以在独立的分支中有效检测运动和外观。它们主要通过重建运动特征（例如光流特征、两图像梯度等）[35]来解决运动异常检测问题。其中最引人注目的相关工作之一是由Neygun和Meunier [47]提出的，其将运动学习构建为从输入帧到其相应的光流图的平移，试图考虑对象与其运动之间的对应关系，以进行运动异常检测。Baradaran和Bergevin [7]提出将输入帧翻译为其光流幅度（仅考虑运动的幅度），因为他们报告称，网络在从单帧预测完整光流时可能会混淆。尽管他们的方法解决了混淆问题，并学习了每个对象与其运动幅度之间的对应关系以检测相关的异常，但他们的方法忽略了方向信息。因此，他们的方法可能在检测由于方向突然变化而引起的异常时失败。此外，由于帧中感知到的运动也是相机距离（即相同的运动幅度在距离相机更远时看起来较小）和运动方向等因素的函数，因此他们的方法可能在精确的运动幅度预测方面失败，而这些重要因素在他们的方法中未被考虑。

受到多任务学习方法在考虑异常检测中的不同关键方面方面取得成功的启发，我们提出了一种改进的基于多任务学习的视频异常检测（VAD）方法，采用互补的代理任务来克服上述缺点，更有效地涵盖外观和运动异常。受到未来帧预测和语义分割预测任务在分别检测突发运动变化和对象类别感知外观异常方面的成功启发，我们将它们合并成一个单一任务，并引入未来语义分割预测作为视频异常检测的新代理任务。我们还设计了注意力层，通过学习运动并考虑关键的上下文信息，以及关注对象部分、运动方向和对象的距离来估计运动。

3. Method

我们提出了一种基于多任务学习的视频异常检测方法，利用两个独立分支中的三个自监督代理任务的能力来建模正常模式，从而检测异常。所提出方法的流程如图2所示，并在接下来的内容中进行了详细描述。

3.1. Multi-task learning

受到[20]的启发，我们提出了一种基于多任务学习的视频异常检测（VAD）方法，该方法利用两个分支中的三个代理任务进行异常检测。第一分支（命名为外观-运动分支）结合了两个不同的任务（语义分割和未来帧预测），以同时建模外观和运动。第二分支（即运动分支）负责学习每个正常对象及其正常运动幅度之间的对应关系，关注其与摄像机的距离、运动方向和身体部位。通过这种方式，三个任务相互补充，每个任务都试图找到其他任务可能不够优化的异常。