即插即用系列 | AAAI 2025 Mesorch：CNN与Transformer的双剑合璧：基于频域增强与自适应剪枝的篡改定位

论文题目：Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

论文作者：Xuekang Zhu, Xiaochen Ma, et al. (Sichuan University, MBZUAI, etc.)

论文地址 ：https://arxiv.org/abs/2412.13753

代码地址 ：https://github.com/scu-zjz/Mesorch

哔哩哔哩视频讲解 ：https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

- - [1. 核心思想](#1. 核心思想)
  - [2. 背景与动机](#2. 背景与动机)
  - - [2.1 文本背景与痛点](#2.1 文本背景与痛点)
    - [2.2 动机图解分析](#2.2 动机图解分析)
  - [3. 主要创新点](#3. 主要创新点)
  - [4. 方法细节](#4. 方法细节)
  - - [4.1 整体网络架构](#4.1 整体网络架构)
    - [4.2 核心创新模块详解](#4.2 核心创新模块详解)
    - [4.3 理念与机制总结](#4.3 理念与机制总结)
  - [5. 即插即用模块的作用](#5. 即插即用模块的作用)
  - [6. 实验分析](#6. 实验分析)
  - [7. 获取即插即用代码关注【AI即插即用】](#7. 获取即插即用代码关注【AI即插即用】)

1. 核心思想

本文提出了一种名为 Mesorch 的新型架构，旨在解决图像篡改定位（IML）中单一关注"微观痕迹（如噪声残留）"或"宏观语义（如物体不一致）"的局限性。作者引入了**"介观（Mesoscopic）"**这一物理学概念，主张在介观层面上同时编排微观细节和宏观布局。通过并行结合擅长捕捉微观特征的 CNN 和擅长提取宏观语义的 Transformer，并辅以自适应加权模块和模型剪枝策略，Mesorch 在保持极高效率的同时，在多个基准数据集上刷新了 SOTA 性能。

2. 背景与动机

2.1 文本背景与痛点

图像篡改（如拼接、复制移动、修复）通常会留下人眼难以察觉的痕迹。现有的定位方法主要分为两类：

微观流派（Microscopic）：关注底层的信号异常（如RGB噪声、边缘伪影），通常使用 CNN。缺点是容易忽略图像的高层语义，对语义一致的篡改检测乏力。
宏观流派（Macroscopic）：关注物体级别的语义异常，通常使用 Transformer。缺点是缺乏捕捉细微边界伪影的能力，导致定位掩膜（Mask）边缘粗糙。

本文动机 ：绝大多数篡改（约80%）都是针对"物体"的，既改变了语义（宏观），又留下了边缘痕迹（微观）。因此，我们需要一个能同时"看清树木（细节）"和"看清森林（语义）"的介观架构。

2.2 动机图解分析

看图说话（动机分析）：

微观视角（结合 Figure 1） ：图1展示了拼接（Splicing）、复制移动（Copy-move）和修复（Inpainting）。红色箭头指向的区域存在细微的像素级伪影（Artifacts）。这说明微观特征对于发现"哪里不对劲"至关重要。
宏观视角（结合 Figure 2） ：图2展示了随机抽样的篡改图像。红线勾勒出的区域大多是完整的物体 （如动物、人）。这说明篡改往往是"面向对象"的，宏观语义对于定位"哪个物体被改了"至关重要。
结论：单一视角无法兼顾。Mesorch 的目标就是建立一个"介观"桥梁，将图1的痕迹检测能力和图2的物体识别能力结合起来。

3. 主要创新点

介观编排架构 (Mesorch)：首创性地提出并行使用 CNN 和 Transformer 分别处理高频（微观）和低频（宏观）信息，构建介观表示。
频域双流增强：利用 DCT（离散余弦变换）分离图像的高频和低频分量，分别作为 CNN 和 Transformer 的增强输入，从源头实现特征解耦。
自适应加权模块 (Adaptive Weighting Module)：拒绝盲目的多尺度融合，设计了一个模块动态学习每个尺度（Scale）的重要性，实现像素级的加权融合。
二次剪枝策略 (Secondary Pruning)：基于自适应权重，剔除贡献度低的尺度分支。这使得模型在推理阶段极其高效，参数量和 FLOPs 大幅降低。

4. 方法细节

4.1 整体网络架构

数据流详解：

输入 (Input)：原始 RGB 图像。
频域分离 (DCT Module) ：
- 输入图像经过 DCT 变换，分离出高频信息 （边缘、噪声）和低频信息（颜色、结构）。
- 分别与原图拼接，形成高频增强图 I h I_h Ih 和低频增强图 I l I_l Il。
双流并行编码 (Parallel Encoders) ：
- 微观流 (Local Feature Module) ：使用 CNN (ConvNeXt) 处理 I h I_h Ih，专注于捕捉微观纹理和伪影。输出 4 个尺度的特征图。
- 宏观流 (Global Feature Module) ：使用 Transformer (SegFormer) 处理 I l I_l Il，专注于捕捉宏观物体和语义一致性。同样输出 4 个尺度的特征图。
多尺度解码与融合 ：
- 两个分支的特征图分别经过解码器，生成 8 个初始预测掩膜（4个来自CNN，4个来自Transformer）。
自适应加权与输出 ：
- Adaptive Weighting Module 计算这 8 个预测图的权重图。
- 通过加权求和得到最终的篡改定位图 P f i n a l P_{final} Pfinal。

4.2 核心创新模块详解

模块 A：频域双流特征提取 (Frequency-enhanced Dual Stream)

设计理念：利用频域特性强化模型偏好。
工作机制 ：
- CNN 分支：吃的是"高频餐"。高频分量突出了图像的噪声模式和边界突变，这正是 CNN 卷积核擅长捕捉的局部特征。
- Transformer 分支：吃的是"低频餐"。低频分量保留了物体的平滑结构和整体布局，有助于 Transformer 的 Self-Attention 机制建立长距离依赖，理解场景语义。

模块 B：自适应加权模块 (Adaptive Weighting Module)

设计理念：不同尺度的特征贡献度不同。浅层特征定位边缘准，深层特征定位物体准。简单平均会引入噪声。
内部结构 ：
- 输入：拼接后的 RGB + 高频图 + 低频图（9通道）。
- 处理：经过一个轻量级网络，输出一个权重张量 W ∈ R H 4 × W 4 × 8 W \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times 8} W∈R4H×4W×8。
- 作用：它为 8 个尺度的预测图（Local/Global 各4个）分配像素级的权重。这意味着对于某个像素，模型可以决定是更相信 CNN 的判断，还是 Transformer 的判断。

模块 C：基于权重的剪枝 (Pruning based on Weighting)

机制总结 ：
- 训练完成后，统计每个尺度 i i i 的平均权重 W i ‾ \overline{W_i} Wi。
- 剪枝条件 ：如果 W i ‾ < ϵ \overline{W_i} < \epsilon Wi<ϵ（阈值），说明该尺度对结果贡献微乎其微。
- 结果：直接移除对应的编码器层和解码器分支。实验发现这能大幅减少计算量（FLOPs 减少约 50%）而几乎不损失精度（见 Table 3）。

4.3 理念与机制总结

Mesorch 的核心理念是**"各司其职，按需分配"**。

CNN 负责"显微镜"工作（查纹理）。
Transformer 负责"望远镜"工作（看语义）。
DCT 负责"分发弹药"（分配高低频信息）。
自适应权重负责"指挥调度"（决定听谁的）。

最终，这个系统解决了"只见树木不见森林"或"只见森林不见树木"的问题，完美实现了介观层面的统一。

5. 即插即用模块的作用

DCT 频域增强模块 ：
- 适用场景：任何涉及细微痕迹检测的任务，如 Deepfake 检测、隐写分析。
- 应用：在输入网络前，先用 DCT 提取高频残差并拼接到 RGB 图上，通常能显著提升 CNN 对噪声的敏感度。
自适应多尺度加权 (Adaptive Weighting) ：
- 适用场景：所有使用 FPN（特征金字塔）或 U-Net 结构的任务（分割、检测）。
- 应用：不要直接 sum 或 concat 多尺度特征，尝试训练一个小的权重网络来动态融合它们，效果通常优于静态融合。
基于权重的剪枝策略 ：
- 适用场景：模型轻量化部署。
- 应用：训练一个多分支的大模型，通过学习到的权重自动剪掉无用分支，是实现"无痛瘦身"的有效策略。

6. 实验分析

SOTA 性能 (Table 1)：
- 在 CASIAv1, Coverage, NIST16, Columbia 四大经典数据集上，Mesorch（特别是剪枝版 Mesorch-P）的 F1 分数均达到或接近最优。
- 平均 F1 ：达到了 0.7259 ，显著优于 TruFor (0.6826) 和 CAT-Net (0.6546)。
鲁棒性 (Table 2)：
- 在面对高斯噪声、高斯模糊和 JPEG 压缩攻击时，Mesorch 展现出了极强的稳定性，性能下降幅度远小于对比模型。
效率分析 (Table 3) ：
- 剪枝的威力 ：Mesorch-P（剪枝版）的 FLOPs 仅为 64.8 G，不到 MVSS-Net (171 G) 的一半，更是远低于 PSCC-Net (376 G)。参数量也得到了有效控制。这证明了其作为高效 Baseline 的潜力。

总结：Mesorch 是一篇不仅有"新概念"（介观），更有"实战价值"（高精度+低算力）的佳作。它证明了在图像取证领域，暴力堆叠大模型不如精心设计的混合架构有效。

到此，所有的内容就基本讲完了。如果觉得这篇文章对你有用，记得点赞、收藏并分享给你的小伙伴们哦😄。