即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

论文题目:Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

论文作者:Xuekang Zhu, Xiaochen Ma, et al. (Sichuan University, MBZUAI, etc.)

论文地址https://arxiv.org/abs/2412.13753

代码地址https://github.com/scu-zjz/Mesorch


哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • [1. 核心思想](#1. 核心思想)
      • [2. 背景与动机](#2. 背景与动机)
        • [2.1 文本背景与痛点](#2.1 文本背景与痛点)
        • [2.2 动机图解分析](#2.2 动机图解分析)
      • [3. 主要创新点](#3. 主要创新点)
      • [4. 方法细节](#4. 方法细节)
        • [4.1 整体网络架构](#4.1 整体网络架构)
        • [4.2 核心创新模块详解](#4.2 核心创新模块详解)
        • [4.3 理念与机制总结](#4.3 理念与机制总结)
      • [5. 即插即用模块的作用](#5. 即插即用模块的作用)
      • [6. 实验分析](#6. 实验分析)
      • [7. 获取即插即用代码关注 【AI即插即用】](#7. 获取即插即用代码关注 【AI即插即用】)

1. 核心思想

本文提出了一种名为 Mesorch 的新型架构,旨在解决图像篡改定位(IML)中单一关注"微观痕迹(如噪声残留)"或"宏观语义(如物体不一致)"的局限性。作者引入了**"介观(Mesoscopic)"**这一物理学概念,主张在介观层面上同时编排微观细节和宏观布局。通过并行结合擅长捕捉微观特征的 CNN 和擅长提取宏观语义的 Transformer,并辅以自适应加权模块和模型剪枝策略,Mesorch 在保持极高效率的同时,在多个基准数据集上刷新了 SOTA 性能。


2. 背景与动机

2.1 文本背景与痛点

图像篡改(如拼接、复制移动、修复)通常会留下人眼难以察觉的痕迹。现有的定位方法主要分为两类:

  • 微观流派(Microscopic):关注底层的信号异常(如RGB噪声、边缘伪影),通常使用 CNN。缺点是容易忽略图像的高层语义,对语义一致的篡改检测乏力。
  • 宏观流派(Macroscopic):关注物体级别的语义异常,通常使用 Transformer。缺点是缺乏捕捉细微边界伪影的能力,导致定位掩膜(Mask)边缘粗糙。

本文动机 :绝大多数篡改(约80%)都是针对"物体"的,既改变了语义(宏观),又留下了边缘痕迹(微观)。因此,我们需要一个能同时"看清树木(细节)"和"看清森林(语义)"的介观架构。

2.2 动机图解分析


看图说话(动机分析):

  • 微观视角(结合 Figure 1) :图1展示了拼接(Splicing)、复制移动(Copy-move)和修复(Inpainting)。红色箭头指向的区域存在细微的像素级伪影(Artifacts)。这说明微观特征对于发现"哪里不对劲"至关重要
  • 宏观视角(结合 Figure 2) :图2展示了随机抽样的篡改图像。红线勾勒出的区域大多是完整的物体 (如动物、人)。这说明篡改往往是"面向对象"的,宏观语义对于定位"哪个物体被改了"至关重要
  • 结论:单一视角无法兼顾。Mesorch 的目标就是建立一个"介观"桥梁,将图1的痕迹检测能力和图2的物体识别能力结合起来。

3. 主要创新点

  1. 介观编排架构 (Mesorch):首创性地提出并行使用 CNN 和 Transformer 分别处理高频(微观)和低频(宏观)信息,构建介观表示。
  2. 频域双流增强:利用 DCT(离散余弦变换)分离图像的高频和低频分量,分别作为 CNN 和 Transformer 的增强输入,从源头实现特征解耦。
  3. 自适应加权模块 (Adaptive Weighting Module):拒绝盲目的多尺度融合,设计了一个模块动态学习每个尺度(Scale)的重要性,实现像素级的加权融合。
  4. 二次剪枝策略 (Secondary Pruning):基于自适应权重,剔除贡献度低的尺度分支。这使得模型在推理阶段极其高效,参数量和 FLOPs 大幅降低。

4. 方法细节

4.1 整体网络架构

数据流详解:

  • 输入 (Input):原始 RGB 图像。
  • 频域分离 (DCT Module)
    • 输入图像经过 DCT 变换,分离出高频信息 (边缘、噪声)和低频信息(颜色、结构)。
    • 分别与原图拼接,形成高频增强图 I h I_h Ih 和低频增强图 I l I_l Il。
  • 双流并行编码 (Parallel Encoders)
    • 微观流 (Local Feature Module) :使用 CNN (ConvNeXt) 处理 I h I_h Ih,专注于捕捉微观纹理和伪影。输出 4 个尺度的特征图。
    • 宏观流 (Global Feature Module) :使用 Transformer (SegFormer) 处理 I l I_l Il,专注于捕捉宏观物体和语义一致性。同样输出 4 个尺度的特征图。
  • 多尺度解码与融合
    • 两个分支的特征图分别经过解码器,生成 8 个初始预测掩膜(4个来自CNN,4个来自Transformer)。
  • 自适应加权与输出
    • Adaptive Weighting Module 计算这 8 个预测图的权重图。
    • 通过加权求和得到最终的篡改定位图 P f i n a l P_{final} Pfinal。
4.2 核心创新模块详解

模块 A:频域双流特征提取 (Frequency-enhanced Dual Stream)

  • 设计理念:利用频域特性强化模型偏好。
  • 工作机制
    • CNN 分支:吃的是"高频餐"。高频分量突出了图像的噪声模式和边界突变,这正是 CNN 卷积核擅长捕捉的局部特征。
    • Transformer 分支:吃的是"低频餐"。低频分量保留了物体的平滑结构和整体布局,有助于 Transformer 的 Self-Attention 机制建立长距离依赖,理解场景语义。

模块 B:自适应加权模块 (Adaptive Weighting Module)

  • 设计理念:不同尺度的特征贡献度不同。浅层特征定位边缘准,深层特征定位物体准。简单平均会引入噪声。
  • 内部结构
    • 输入:拼接后的 RGB + 高频图 + 低频图(9通道)。
    • 处理:经过一个轻量级网络,输出一个权重张量 W ∈ R H 4 × W 4 × 8 W \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times 8} W∈R4H×4W×8。
    • 作用:它为 8 个尺度的预测图(Local/Global 各4个)分配像素级的权重。这意味着对于某个像素,模型可以决定是更相信 CNN 的判断,还是 Transformer 的判断。

模块 C:基于权重的剪枝 (Pruning based on Weighting)

  • 机制总结
    • 训练完成后,统计每个尺度 i i i 的平均权重 W i ‾ \overline{W_i} Wi。
    • 剪枝条件 :如果 W i ‾ < ϵ \overline{W_i} < \epsilon Wi<ϵ(阈值),说明该尺度对结果贡献微乎其微。
    • 结果:直接移除对应的编码器层和解码器分支。实验发现这能大幅减少计算量(FLOPs 减少约 50%)而几乎不损失精度(见 Table 3)。
4.3 理念与机制总结

Mesorch 的核心理念是**"各司其职,按需分配"**。

  • CNN 负责"显微镜"工作(查纹理)。
  • Transformer 负责"望远镜"工作(看语义)。
  • DCT 负责"分发弹药"(分配高低频信息)。
  • 自适应权重负责"指挥调度"(决定听谁的)。

最终,这个系统解决了"只见树木不见森林"或"只见森林不见树木"的问题,完美实现了介观层面的统一。


5. 即插即用模块的作用

  1. DCT 频域增强模块
    • 适用场景:任何涉及细微痕迹检测的任务,如 Deepfake 检测、隐写分析。
    • 应用:在输入网络前,先用 DCT 提取高频残差并拼接到 RGB 图上,通常能显著提升 CNN 对噪声的敏感度。
  2. 自适应多尺度加权 (Adaptive Weighting)
    • 适用场景:所有使用 FPN(特征金字塔)或 U-Net 结构的任务(分割、检测)。
    • 应用 :不要直接 sumconcat 多尺度特征,尝试训练一个小的权重网络来动态融合它们,效果通常优于静态融合。
  3. 基于权重的剪枝策略
    • 适用场景:模型轻量化部署。
    • 应用:训练一个多分支的大模型,通过学习到的权重自动剪掉无用分支,是实现"无痛瘦身"的有效策略。

6. 实验分析

  • SOTA 性能 (Table 1)

    • 在 CASIAv1, Coverage, NIST16, Columbia 四大经典数据集上,Mesorch(特别是剪枝版 Mesorch-P)的 F1 分数均达到或接近最优。
    • 平均 F1 :达到了 0.7259 ,显著优于 TruFor (0.6826) 和 CAT-Net (0.6546)。
  • 鲁棒性 (Table 2)

    • 在面对高斯噪声、高斯模糊和 JPEG 压缩攻击时,Mesorch 展现出了极强的稳定性,性能下降幅度远小于对比模型。
  • 效率分析 (Table 3)

    • 剪枝的威力 :Mesorch-P(剪枝版)的 FLOPs 仅为 64.8 G,不到 MVSS-Net (171 G) 的一半,更是远低于 PSCC-Net (376 G)。参数量也得到了有效控制。这证明了其作为高效 Baseline 的潜力。

总结:Mesorch 是一篇不仅有"新概念"(介观),更有"实战价值"(高精度+低算力)的佳作。它证明了在图像取证领域,暴力堆叠大模型不如精心设计的混合架构有效。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

相关推荐
应用市场2 小时前
视频目标追踪完全指南:从原理到实战部署
人工智能·深度学习
@高手2 小时前
AI应用开发基础
人工智能
wechat_Neal2 小时前
供应商合作模式中以产品中心取向的转型要点2
人工智能·汽车·devops
一个处女座的程序猿2 小时前
AI之xAI:《WTF is happening at xAI》解读:从 Sulaiman Ghori 的访谈看 xAI 的节奏、架构与“人类模拟器”愿景
人工智能·架构·xai
编码小哥2 小时前
OpenCV DNN模块:深度学习模型部署实战
深度学习·opencv·dnn
一招定胜负2 小时前
项目案例:指纹匹配,图像拼接
人工智能·深度学习·计算机视觉
凤希AI伴侣2 小时前
凤希AI积分系统上线与工具哲学思考-2026年1月24日
人工智能·凤希ai伴侣
逐梦苍穹2 小时前
一键推送AI项目到GitHub的完全指南
人工智能·github
HZjiangzi2 小时前
航空航天大部件检测革新:思看科技无贴点跟踪扫描方案
人工智能·科技·制造