Anomaly Detection系列（CVPR2025 EG-MPC论文解读）

Noise-Resistant Video Anomaly Detection via RGB Error-Guided Multiscale Predictive Coding and Dynamic Memory

无监督视频异常检测旨在仅从正常样本中学习模式，从而识别测试阶段中的异常事件。

当前方法面临三大核心挑战：

依赖静态背景假设：现有方法易受复杂背景噪声干扰，在非均匀光照或动态背景下误检率高。
缺乏对多样正常模式的有效建模：多数方法仅在训练时更新记忆项，忽略了测试集中也存在可参考的正常行为。
难以区分局部异常与全局噪声：小尺度异常区域常被背景误差掩盖，导致漏报和误报。

图1.不同方法帧重建RGB误差图的可视化结果（从上至下依次为：HSC $40$ 、 MGSTRL $51$ 及本研究方法）。从左至右依次展示：(a)ShanghaiTech $26$ 的正常数据与(b)Avenue $25$ 的异常数据、(c)ShanghaiTech 及(d)UCF-Crime $38$ 数据的RGB误差图。误差图中数值表示与真实值的均方误差。最佳效果请以彩色模式查看。

本文提出一种结合下一帧预测与预测帧重建的任务框架，引入RGB误差引导的多尺度预测编码（EG-MPC）与动态记忆模块（DMM），在四个基准数据集上实现SOTA性能，尤其在上海科技城数据集上AUROC达86.0%，超越最先进方法0.9个百分点。

核心贡献

本文核心贡献如下：

首个融合RGB误差空间预测与动态记忆重建的双任务框架，解决了传统方法对背景噪声敏感的问题（挑战1），在上海Tech上AUROC=86.0%。
提出RGB误差引导的多尺度预测编码架构，通过通道与空间注意力机制增强前景物体特征提取能力（挑战1），相比纯ConvLSTM基线提升Δ𝑆至0.349。
设计动态记忆模块及其稀疏聚合与选择性更新策略，有效放大异常帧重构误差（挑战2），并在测试阶段持续优化记忆库表达力（挑战2），使Avenue Δ𝑆提高到0.431。
首次将对比损失应用于记忆模块内部项间差异化约束，确保记忆项多样性（挑战2），对比损失系数γ₁=γ₂=0.1时效果最优。
实现实时推理速度与精度平衡，运行速度达**82.1 FPS**，优于多数混合任务方法（挑战3），同时保持高准确率。

方法论详解

图2.所提方法的概述。该方法由RGB误差引导多尺度预测编码（EG-MPC）框架和通过动态记忆模块（DMMs）增强的重建网络组成，分别用于解决下一帧预测和预测帧重建代理任务。 𝑈𝑖 表示U-Net的第 𝑖 层。最佳效果以彩色显示。

1. RGB误差引导的多尺度预测编码（EG-MPC）

- 功能：用于生成高质量的下一帧预测结果，缓解背景噪声干扰。
- 机制：输入为RGB误差图 $E_t = G_t \\ominus P_t$ ，经编码器提取特征后送入四层时空细化模块（STFRM）。每层STFRM融合通道注意力（CAU）与带膨胀卷积的空间注意力（SAU_d），逐级关注不同尺度的预测误差区域。
- 动机：相比直接预测完整帧，误差图更突出前景变化，抑制静态背景学习偏好，提升预测效率。此外，多尺度设计增强了对小目标异常的感知能力。

> ⚠️ 局限推测：若原始视频分辨率过低或色彩单调（如灰阶图像），RGB误差可能不足以提供足够信息。

2. 动态记忆辅助的预测帧重建网络

- 功能：通过对预测帧进行记忆驱动的重建，进一步放大异常帧与正常帧之间的差异。
- 机制：U-Net骨干网络中嵌入两个独立的动态记忆模块（DMM），分别作用于第二、三级特征图。每个DMM内含N个记忆项，通过查询-记忆相似度加权聚合完成重建，并施加稀疏化与选择性更新策略。
- 动机：稀疏聚合防止异常被良好重建，选择性更新允许测试阶段继续吸收新的正常模式，提升模型泛化能力。

> ⚠️ 局限推测：当异常行为具有高度重复性且接近正常模式时，可能导致记忆项误收录异常样本。

3. 异常评分机制

- **功能**：量化每一帧是否异常的概率。
- **机制**：基于重建帧与真值间的PSNR计算得分，再做归一化处理得到最终异常分数 $S_t$ 。
- **动机**：PSNR作为衡量标准已被广泛验证，适用于本任务中异常与正常的区分。

> ⚠️ 局限推测：对于长时间无明显活动的视频片段，可能出现稳定但罕见的正常行为被判为异常。

实验与验证

性能对比

|---------------------|------------------|--------------------|-----------|

| UCSD Ped2 | 99.1 | 92.4 | +6.7 |

| Avenue | 92.9 | 92.4 | +0.5 |

| ShanghaiTech | 86.0 | 85.1 | +0.9 |

| UCF-Crime | 82.1 | 80.6 | +1.5 |

效率分析

- 参数量：相较MoCoDAD减少约**30%**
- 推理速度：**82.1 FPS**，远超HF2-VAD（76.2 FPS）

消融实验

| 组件移除 | AUROC下降值 | Δ𝑆下降值 |

|---------------------|-------------|----------|

| 移除EG-MPC | ↓3.8% | ↓0.12 |

| 移除DMM | ↓4.2% | ↓0.15 |

| 不使用稀疏聚合 | ↓2.1% | ↓0.08 |

| 关闭测试更新 | ↓1.7% | ↓0.06 |

> 🔍 分析：性能提升主要源于**双任务协同放大异常信号**以及**动态记忆机制提升了模型对多样化正常行为的学习能力**。

结论与展望

贡献重申

双任务联合优化框架，AUROC达86.0%
RGB误差引导预测+动态记忆重建，Δ𝑆达0.431
支持训练/测试双阶段更新的记忆机制，FPS达82.1

未来方向

探索动态阈值自适应调整机制，提升异常判定稳定性；
扩展至半监督设定，结合少量标注样本提升检测精度；
针对长时间序列建模引入时间记忆单元，应对周期性正常行为误判问题；
构建跨摄像头迁移学习机制，拓展应用场景。

局限性

对于极低分辨率或灰阶视频，RGB误差有效性受限；
在无异常长视频中可能误报稀有但合法的正常事件。

Anomaly Detection系列（CVPR2025 EG-MPC论文解读）

相关工作综述

(一) 学习范式局限

(二) 多任务协同限制

(三) 记忆机制缺陷