视频异常检测论文笔记

看几篇中文的学习一下别人的思路

基于全局-局部自注意力网络的视频异常检测方法

文章信息:

链接:https://kns.cnki.net/kcms2/article/abstract?v=FY8FZShUIjGtR3ED9H4lwnExLaJ3z-kfwPv1HujOqotZMfpdRr-ETlKpVGwgsyGVblKfsr1kFyunmlxIeOIbLKc5dQB9iBqMESsg4AsfheeiZ1OQCWHX8K54W8OIaAeWuAxkpGlU5grzU6EtO2hBfA==&uniplatform=NZKPT&language=CHS

主要贡献:

  • 采用"双编码器-单解码器"的编解码混合结构,充分利用原始视频的多维信息,并通过自注意力模块实现有效的解码,从而使模型能够准确表示和理解视频数据。
  • 使用多源数据作为输入,充分利用运动和外观信息的互补,并综合考虑不同信息源以全面分析视频数据,从而更加准确地识别异常行为。
  • 提出一种基于全局-局部自注意力机制的视频异常检测方法,通过全局-局部自注意力机制综合考虑整体和局部的时序相关性,能够更好地理解视频序列中不同时间尺度的连续性,并保持局部上下文信息的一致性。
  • 对UCSD Ped2、CUHK Avenue和Shanghai Tech数据集进行测试,实验结果表明,本文方法的检测精度分别达到97.4%、86.8%和73.2%,而且与现有方法相比,本文方法明显提升了视频异常检测的能力和鲁棒性,为视频异常检测的深入研究和实际应用提供了一定支撑。

网络结构

主要是双编码器、注意力模块、解码器

注意力模块结构:

融合自注意力和自编码器的视频异常检测

文章信息:

文章链接:https://kns.cnki.net/kcms2/article/abstract?v=FY8FZShUIjGm28qSIBRR5HDmMGuL1Feyl67y-wYwJ7nUXtdTVPSuX1vlTzLmRbNr19nM_RgUgZ8iummOVivtWsEB3RYYntv9F_eHFlXMljXSQIw_VGFiLHjiWXJp5tpRbYb6ldGrw0V5wrJuHAYsgw==&uniplatform=NZKPT&language=CHS

主要贡献:

  • 提出了基于Transformer和U-Net混合网络的视频异常检测算法,将基于自注意力机制的Transformer嵌入U-Net网络学习正常事件的局部和全局时空信息,捕捉更丰富的特征信息。
  • 现有的异常检测数据集大多基于室外远景运动信息,本文进一步收集了针对异常分析的室内动作数据集。针对周期性的近景手部动作,除了传统的重建损失外,本文进一步引入动态图约束引导网络关注运动轨迹区域。
  • 本文在4个室外和1个室内数据集上进行了实验,与现有方法相比本文方法的异常检测性能更好。

网络结构

Transformer模块

Transformer模块的结构如图2(b)所示,其中Transformer编码器由N层多头自注意力块(multi-head self-attention)和多层感知器块(multi-layer perceptron,MLP)组成,通过对远距离依赖建模从而提高网络的特征表达能力。每个块前后都应用了层归一化(layer norm)和残差连接。最后,将Transformer模块得到的隐藏特征z调整为U-Net编码器原来的尺寸,解码器对编码特征进行上采样,并与编码器中相同分辨率的低层特征融合,将全局空间信息与局部细节信息结合,从而捕捉更丰富的特征信息。

动态图

引入了动态图作为损失函数的注意力图,如下公式所示,作者将动态图引入到了损失函数中:

融合门控自注意力机制的生成对抗网络视频异常检测

文章信息:

链接:https://kns.cnki.net/kcms2/article/abstract?v=FY8FZShUIjFwKn5KHOciqgG5THwAEGgaTBLxJ92Zpr0dZoYvsOg2EekwJInek5ONBguXDE9m-DDN5MIj_se3HnRznWkQf-0-qlJM_qXO8NU2536G3JBBj4IsgnAvskYTq99tlFpxTlJUhbz8hw-Rqg==&uniplatform=NZKPT&language=CHS

贡献

  • 考虑视频序列帧之间的时间和空间2维关系,提出一种改进的异常行为检测模型。利用生成对抗网络中的生成模块对视频中的空间特征进行提取,利用LiteFlownet光流网络对运动信息的时间特征进行提取,引入门控自注意力机制对特征图进行加权处理,实现了视频序列之间时空特征更有效的表达。
  • 引入门控自注意力机制,逐层对U-net采样过程中的特征进行加权计算。该自注意力机制在视频帧的单层特征中对远距离且具有空间相关性的特征进行建模,可自动寻找图像特征中的相关部分,提高对视频帧中时间和空间两个维度的特征响应。
  • 选用LiteFlownet光流网络对运动信息进行提取,得到视频帧之间的时间关联,进一步提高了该模型的检测性能。

网络结构

门控注意力机制

相关推荐
轻松Ai享生活1 分钟前
5 Python 技巧,让你秒变大神
python
手插口袋谁也不爱♡20 分钟前
本地化语音识别CapsWriter结合内网穿透远程会议录音秒变文字稿
人工智能·语音识别
deephub30 分钟前
FANformer:融合傅里叶分析网络的大语言模型基础架构
人工智能·语言模型·傅立叶分析
飞哥数智坊37 分钟前
Cursor实战:1小时集成天地图
人工智能·cursor
ianozo42 分钟前
[GHCTF 2025]UPUPUP【.htaccess绕过 XBM/WBMP】
图像处理·人工智能
大囚长1 小时前
deepseek+ansible实现AI自动化集群部署
人工智能·自动化·ansible
程序边界1 小时前
AI+游戏开发:如何用 DeepSeek 打造高性能贪吃蛇游戏
人工智能·游戏
CodeJourney.1 小时前
光储直流微电网:能源转型的关键力量
数据库·人工智能·算法·能源
艾思科蓝 AiScholar1 小时前
【 IEEE出版 | 快速稳定EI检索 | 往届已EI检索】2025年储能及能源转换国际学术会议(ESEC 2025)
人工智能·计算机网络·自然语言处理·数据挖掘·自动化·云计算·能源
Fulima_cloud1 小时前
智慧锂电:开启能源新时代的钥匙
大数据·人工智能·物联网