视频异常检测论文笔记

看几篇中文的学习一下别人的思路

基于全局-局部自注意力网络的视频异常检测方法

文章信息:

链接:https://kns.cnki.net/kcms2/article/abstract?v=FY8FZShUIjGtR3ED9H4lwnExLaJ3z-kfwPv1HujOqotZMfpdRr-ETlKpVGwgsyGVblKfsr1kFyunmlxIeOIbLKc5dQB9iBqMESsg4AsfheeiZ1OQCWHX8K54W8OIaAeWuAxkpGlU5grzU6EtO2hBfA==&uniplatform=NZKPT&language=CHS

主要贡献:

  • 采用"双编码器-单解码器"的编解码混合结构,充分利用原始视频的多维信息,并通过自注意力模块实现有效的解码,从而使模型能够准确表示和理解视频数据。
  • 使用多源数据作为输入,充分利用运动和外观信息的互补,并综合考虑不同信息源以全面分析视频数据,从而更加准确地识别异常行为。
  • 提出一种基于全局-局部自注意力机制的视频异常检测方法,通过全局-局部自注意力机制综合考虑整体和局部的时序相关性,能够更好地理解视频序列中不同时间尺度的连续性,并保持局部上下文信息的一致性。
  • 对UCSD Ped2、CUHK Avenue和Shanghai Tech数据集进行测试,实验结果表明,本文方法的检测精度分别达到97.4%、86.8%和73.2%,而且与现有方法相比,本文方法明显提升了视频异常检测的能力和鲁棒性,为视频异常检测的深入研究和实际应用提供了一定支撑。

网络结构

主要是双编码器、注意力模块、解码器

注意力模块结构:

融合自注意力和自编码器的视频异常检测

文章信息:

文章链接:https://kns.cnki.net/kcms2/article/abstract?v=FY8FZShUIjGm28qSIBRR5HDmMGuL1Feyl67y-wYwJ7nUXtdTVPSuX1vlTzLmRbNr19nM_RgUgZ8iummOVivtWsEB3RYYntv9F_eHFlXMljXSQIw_VGFiLHjiWXJp5tpRbYb6ldGrw0V5wrJuHAYsgw==&uniplatform=NZKPT&language=CHS

主要贡献:

  • 提出了基于Transformer和U-Net混合网络的视频异常检测算法,将基于自注意力机制的Transformer嵌入U-Net网络学习正常事件的局部和全局时空信息,捕捉更丰富的特征信息。
  • 现有的异常检测数据集大多基于室外远景运动信息,本文进一步收集了针对异常分析的室内动作数据集。针对周期性的近景手部动作,除了传统的重建损失外,本文进一步引入动态图约束引导网络关注运动轨迹区域。
  • 本文在4个室外和1个室内数据集上进行了实验,与现有方法相比本文方法的异常检测性能更好。

网络结构

Transformer模块

Transformer模块的结构如图2(b)所示,其中Transformer编码器由N层多头自注意力块(multi-head self-attention)和多层感知器块(multi-layer perceptron,MLP)组成,通过对远距离依赖建模从而提高网络的特征表达能力。每个块前后都应用了层归一化(layer norm)和残差连接。最后,将Transformer模块得到的隐藏特征z调整为U-Net编码器原来的尺寸,解码器对编码特征进行上采样,并与编码器中相同分辨率的低层特征融合,将全局空间信息与局部细节信息结合,从而捕捉更丰富的特征信息。

动态图

引入了动态图作为损失函数的注意力图,如下公式所示,作者将动态图引入到了损失函数中:

融合门控自注意力机制的生成对抗网络视频异常检测

文章信息:

链接:https://kns.cnki.net/kcms2/article/abstract?v=FY8FZShUIjFwKn5KHOciqgG5THwAEGgaTBLxJ92Zpr0dZoYvsOg2EekwJInek5ONBguXDE9m-DDN5MIj_se3HnRznWkQf-0-qlJM_qXO8NU2536G3JBBj4IsgnAvskYTq99tlFpxTlJUhbz8hw-Rqg==&uniplatform=NZKPT&language=CHS

贡献

  • 考虑视频序列帧之间的时间和空间2维关系,提出一种改进的异常行为检测模型。利用生成对抗网络中的生成模块对视频中的空间特征进行提取,利用LiteFlownet光流网络对运动信息的时间特征进行提取,引入门控自注意力机制对特征图进行加权处理,实现了视频序列之间时空特征更有效的表达。
  • 引入门控自注意力机制,逐层对U-net采样过程中的特征进行加权计算。该自注意力机制在视频帧的单层特征中对远距离且具有空间相关性的特征进行建模,可自动寻找图像特征中的相关部分,提高对视频帧中时间和空间两个维度的特征响应。
  • 选用LiteFlownet光流网络对运动信息进行提取,得到视频帧之间的时间关联,进一步提高了该模型的检测性能。

网络结构

门控注意力机制

相关推荐
XHW___0011 分钟前
webrtc中音频3A处理开关配置
音视频·webrtc
怪兽毕设2 分钟前
基于Django的洗衣服务平台设计与实现
后端·python·django·洗衣服务平台
乾元2 分钟前
下一代检测:基于自编码器(Autoencoder)的异常流量检测
运维·网络·人工智能·深度学习·安全·安全架构
民乐团扒谱机2 分钟前
【微实验】Zhang-Suen 快速并行细化算法与MATLAB实现
人工智能·学习·算法·计算机视觉·数学建模·matlab
愚公搬代码3 分钟前
【愚公系列】《AI短视频创作一本通》012-AI 短视频分镜头设计(AI绘画提示词入门)
人工智能·ai作画·音视频
合合技术团队7 分钟前
论文解读 | 从识别字符到理解结构,“树模型”让AI“看懂”复杂手写数学公式
人工智能·文字识别·公式识别·文档解析·textln·蜜蜂试卷
molaifeng8 分钟前
统一调度:用 EasyCLI + CLIProxyAPI 打造你的私人“AI 路由器”
人工智能·codex·opencode·easycli·cliproxyapi
EdgeOne边缘安全加速平台9 分钟前
一键管控 AI 爬虫,腾讯 EdgeOne 基础 Bot 管理能力免费开放
人工智能·爬虫
徐小夕@趣谈前端9 分钟前
基于Vue3+Nestjs从零实现一款AI思维导图工具
人工智能
maoku6610 分钟前
从关键词到语义:向量数据库如何让AI真正理解你的需求
数据库·人工智能