Anomaly Detection系列(CVPR2025 EG-MPC论文解读)

Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory

无监督视频异常检测旨在仅从正常样本中学习模式,从而识别测试阶段中的异常事件。

当前方法面临三大核心挑战

  • 依赖静态背景假设:现有方法易受复杂背景噪声干扰,在非均匀光照或动态背景下误检率高。
  • 缺乏对多样正常模式的有效建模:多数方法仅在训练时更新记忆项,忽略了测试集中也存在可参考的正常行为。
  • 难以区分局部异常与全局噪声:小尺度异常区域常被背景误差掩盖,导致漏报和误报。

图1.不同方法帧重建RGB误差图的可视化结果(从上至下依次为:HSC[40]、 MGSTRL [51]及本研究方法)。从左至右依次展示:(a)ShanghaiTech [26]的正常数据与(b)Avenue[25]的异常数据、(c)ShanghaiTech 及(d)UCF-Crime[38]数据的RGB误差图。误差图中数值表示与真实值的均方误差。最佳效果请以彩色模式查看。

本文提出一种结合下一帧预测与预测帧重建的任务框架,引入RGB误差引导的多尺度预测编码(EG-MPC)与动态记忆模块(DMM),在四个基准数据集上实现SOTA性能,尤其在上海科技城数据集上AUROC达86.0%,超越最先进方法0.9个百分点。

核心贡献

本文核心贡献如下:

  • 首个融合RGB误差空间预测与动态记忆重建的双任务框架,解决了传统方法对背景噪声敏感的问题(挑战1),在上海Tech上AUROC=86.0%。
  • 提出RGB误差引导的多尺度预测编码架构,通过通道与空间注意力机制增强前景物体特征提取能力(挑战1),相比纯ConvLSTM基线提升Δ𝑆至0.349。
  • 设计动态记忆模块及其稀疏聚合与选择性更新策略,有效放大异常帧重构误差(挑战2),并在测试阶段持续优化记忆库表达力(挑战2),使Avenue Δ𝑆提高到0.431。
  • 首次将对比损失应用于记忆模块内部项间差异化约束,确保记忆项多样性(挑战2),对比损失系数γ₁=γ₂=0.1时效果最优。
  • 实现实时推理速度与精度平衡,运行速度达**82.1 FPS**,优于多数混合任务方法(挑战3),同时保持高准确率。

相关工作综述

(一) 学习范式局限

现有方法主要包括:[单任务方法](如MemAE [13]、MNAD [29]),其核心思想是利用自动编码器或GAN进行帧级重建或预测;但局限在于无法处理复杂背景下的细粒度异常定位 (如"手臂僵直行走")及过度依赖静态图结构无法捕捉运动演化过程

→ 本文改进:采用双任务联合优化,借助RGB误差空间聚焦于前景变化,避免背景冗余建模。

(二) 多任务协同限制

另一类为[混合任务方法](如HF2-VAD [22]、MGSTRL [51]),尝试整合多个代理任务以增强模型表达力;但局限在于任务组合复杂导致实时性差 (如HF2-VAD仅76.2 FPS)及各子任务之间可能存在冲突影响整体性能(如动作识别与光流估计不一致)。

→ 本文改进:构建轻量化的预测+重建双任务流程,降低任务耦合度并提升效率。

(三) 记忆机制缺陷

已有记忆网络(如MemAE [13]、SDMAE [33])虽能抑制异常泛化,但仍受限于固定记忆库容量与静态更新机制,导致无法适应测试阶段新出现的正常模式(如新场景下的人群流动)。

→ 本文改进:引入动态记忆模块,支持训练与测试双重更新机制,强化模型在线学习能力。

方法论详解

图2.所提方法的概述。该方法由RGB误差引导多尺度预测编码(EG-MPC)框架和通过动态记忆模块(DMMs)增强的重建网络组成,分别用于解决下一帧预测和预测帧重建代理任务。 𝑈𝑖 表示U-Net的第 𝑖 层。最佳效果以彩色显示。

1. RGB误差引导的多尺度预测编码(EG-MPC)

    • 功能:用于生成高质量的下一帧预测结果,缓解背景噪声干扰。
    • 机制:输入为RGB误差图 E_t = G_t \\ominus P_t ,经编码器提取特征后送入四层时空细化模块(STFRM)。每层STFRM融合通道注意力(CAU)与带膨胀卷积的空间注意力(SAU_d),逐级关注不同尺度的预测误差区域。
    • 动机:相比直接预测完整帧,误差图更突出前景变化,抑制静态背景学习偏好,提升预测效率。此外,多尺度设计增强了对小目标异常的感知能力。

> ⚠️ 局限推测:若原始视频分辨率过低或色彩单调(如灰阶图像),RGB误差可能不足以提供足够信息。

2. 动态记忆辅助的预测帧重建网络

    • 功能:通过对预测帧进行记忆驱动的重建,进一步放大异常帧与正常帧之间的差异。
    • 机制:U-Net骨干网络中嵌入两个独立的动态记忆模块(DMM),分别作用于第二、三级特征图。每个DMM内含N个记忆项,通过查询-记忆相似度加权聚合完成重建,并施加稀疏化与选择性更新策略。
    • 动机:稀疏聚合防止异常被良好重建,选择性更新允许测试阶段继续吸收新的正常模式,提升模型泛化能力。

> ⚠️ 局限推测:当异常行为具有高度重复性且接近正常模式时,可能导致记忆项误收录异常样本。

3. 异常评分机制

    • **功能**:量化每一帧是否异常的概率。
    • **机制**:基于重建帧与真值间的PSNR计算得分,再做归一化处理得到最终异常分数 S_t
    • **动机**:PSNR作为衡量标准已被广泛验证,适用于本任务中异常与正常的区分。

> ⚠️ 局限推测:对于长时间无明显活动的视频片段,可能出现稳定但罕见的正常行为被判为异常。

实验与验证

性能对比

| 数据集 | 本文方法(AUROC) | 最佳竞品(MGSTRL) | 提升幅度 |

|---------------------|------------------|--------------------|-----------|

| UCSD Ped2 | 99.1 | 92.4 | +6.7 |

| Avenue | 92.9 | 92.4 | +0.5 |

| ShanghaiTech | 86.0 | 85.1 | +0.9 |

| UCF-Crime | 82.1 | 80.6 | +1.5 |

效率分析

    • 参数量:相较MoCoDAD减少约**30%**
    • 推理速度:**82.1 FPS**,远超HF2-VAD(76.2 FPS)

消融实验

| 组件移除 | AUROC下降值 | Δ𝑆下降值 |

|---------------------|-------------|----------|

| 移除EG-MPC | ↓3.8% | ↓0.12 |

| 移除DMM | ↓4.2% | ↓0.15 |

| 不使用稀疏聚合 | ↓2.1% | ↓0.08 |

| 关闭测试更新 | ↓1.7% | ↓0.06 |

> 🔍 分析:性能提升主要源于**双任务协同放大异常信号**以及**动态记忆机制提升了模型对多样化正常行为的学习能力**。

结论与展望

贡献重申

  1. 双任务联合优化框架,AUROC达86.0%
  2. RGB误差引导预测+动态记忆重建,Δ𝑆达0.431
  3. 支持训练/测试双阶段更新的记忆机制,FPS达82.1

未来方向

  1. 探索动态阈值自适应调整机制,提升异常判定稳定性;
  2. 扩展至半监督设定,结合少量标注样本提升检测精度;
  3. 针对长时间序列建模引入时间记忆单元,应对周期性正常行为误判问题;
  4. 构建跨摄像头迁移学习机制,拓展应用场景。

局限性

  • 对于极低分辨率或灰阶视频,RGB误差有效性受限;
  • 在无异常长视频中可能误报稀有但合法的正常事件。
相关推荐
前端不太难2 小时前
鸿蒙游戏 Store 设计(AI + 多端)
人工智能·游戏·harmonyos
未来智慧谷2 小时前
Claude Mythos技术解析:97.6%漏洞利用率意味着什么?AI安全红线在哪里?
人工智能·anthropic·claude mythos
电报号dapp1192 小时前
公链 + DID,解锁 Web3 数字身份新范式
人工智能·web3·去中心化·区块链·智能合约
ComputerInBook2 小时前
OpenCV图像处理——边界插值函数 borderInterpolate
图像处理·人工智能·opencv
老马95272 小时前
opencode3-我的能力超乎你的想象
人工智能·后端
KKKlucifer2 小时前
三权分立 + AI 审计:解析国内堡垒机的合规与智能双引擎
大数据·数据库·人工智能
立莹Sir2 小时前
AI+云原生:当智能遇见敏捷,技术融合的未来之路
人工智能·云原生
深度学习lover2 小时前
<数据集>yolo 船舶识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·船舶分类识别
James5062 小时前
OpenClaw部署之内网服务器
服务器·人工智能·openclaw