即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

论文题目:Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

论文作者:Xuekang Zhu, Xiaochen Ma, et al. (Sichuan University, MBZUAI, etc.)

论文地址https://arxiv.org/abs/2412.13753

代码地址https://github.com/scu-zjz/Mesorch


哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • [1. 核心思想](#1. 核心思想)
      • [2. 背景与动机](#2. 背景与动机)
        • [2.1 文本背景与痛点](#2.1 文本背景与痛点)
        • [2.2 动机图解分析](#2.2 动机图解分析)
      • [3. 主要创新点](#3. 主要创新点)
      • [4. 方法细节](#4. 方法细节)
        • [4.1 整体网络架构](#4.1 整体网络架构)
        • [4.2 核心创新模块详解](#4.2 核心创新模块详解)
        • [4.3 理念与机制总结](#4.3 理念与机制总结)
      • [5. 即插即用模块的作用](#5. 即插即用模块的作用)
      • [6. 实验分析](#6. 实验分析)
      • [7. 获取即插即用代码关注 【AI即插即用】](#7. 获取即插即用代码关注 【AI即插即用】)

1. 核心思想

本文提出了一种名为 Mesorch 的新型架构,旨在解决图像篡改定位(IML)中单一关注"微观痕迹(如噪声残留)"或"宏观语义(如物体不一致)"的局限性。作者引入了**"介观(Mesoscopic)"**这一物理学概念,主张在介观层面上同时编排微观细节和宏观布局。通过并行结合擅长捕捉微观特征的 CNN 和擅长提取宏观语义的 Transformer,并辅以自适应加权模块和模型剪枝策略,Mesorch 在保持极高效率的同时,在多个基准数据集上刷新了 SOTA 性能。


2. 背景与动机

2.1 文本背景与痛点

图像篡改(如拼接、复制移动、修复)通常会留下人眼难以察觉的痕迹。现有的定位方法主要分为两类:

  • 微观流派(Microscopic):关注底层的信号异常(如RGB噪声、边缘伪影),通常使用 CNN。缺点是容易忽略图像的高层语义,对语义一致的篡改检测乏力。
  • 宏观流派(Macroscopic):关注物体级别的语义异常,通常使用 Transformer。缺点是缺乏捕捉细微边界伪影的能力,导致定位掩膜(Mask)边缘粗糙。

本文动机 :绝大多数篡改(约80%)都是针对"物体"的,既改变了语义(宏观),又留下了边缘痕迹(微观)。因此,我们需要一个能同时"看清树木(细节)"和"看清森林(语义)"的介观架构。

2.2 动机图解分析


看图说话(动机分析):

  • 微观视角(结合 Figure 1) :图1展示了拼接(Splicing)、复制移动(Copy-move)和修复(Inpainting)。红色箭头指向的区域存在细微的像素级伪影(Artifacts)。这说明微观特征对于发现"哪里不对劲"至关重要
  • 宏观视角(结合 Figure 2) :图2展示了随机抽样的篡改图像。红线勾勒出的区域大多是完整的物体 (如动物、人)。这说明篡改往往是"面向对象"的,宏观语义对于定位"哪个物体被改了"至关重要
  • 结论:单一视角无法兼顾。Mesorch 的目标就是建立一个"介观"桥梁,将图1的痕迹检测能力和图2的物体识别能力结合起来。

3. 主要创新点

  1. 介观编排架构 (Mesorch):首创性地提出并行使用 CNN 和 Transformer 分别处理高频(微观)和低频(宏观)信息,构建介观表示。
  2. 频域双流增强:利用 DCT(离散余弦变换)分离图像的高频和低频分量,分别作为 CNN 和 Transformer 的增强输入,从源头实现特征解耦。
  3. 自适应加权模块 (Adaptive Weighting Module):拒绝盲目的多尺度融合,设计了一个模块动态学习每个尺度(Scale)的重要性,实现像素级的加权融合。
  4. 二次剪枝策略 (Secondary Pruning):基于自适应权重,剔除贡献度低的尺度分支。这使得模型在推理阶段极其高效,参数量和 FLOPs 大幅降低。

4. 方法细节

4.1 整体网络架构

数据流详解:

  • 输入 (Input):原始 RGB 图像。
  • 频域分离 (DCT Module)
    • 输入图像经过 DCT 变换,分离出高频信息 (边缘、噪声)和低频信息(颜色、结构)。
    • 分别与原图拼接,形成高频增强图 I h I_h Ih 和低频增强图 I l I_l Il。
  • 双流并行编码 (Parallel Encoders)
    • 微观流 (Local Feature Module) :使用 CNN (ConvNeXt) 处理 I h I_h Ih,专注于捕捉微观纹理和伪影。输出 4 个尺度的特征图。
    • 宏观流 (Global Feature Module) :使用 Transformer (SegFormer) 处理 I l I_l Il,专注于捕捉宏观物体和语义一致性。同样输出 4 个尺度的特征图。
  • 多尺度解码与融合
    • 两个分支的特征图分别经过解码器,生成 8 个初始预测掩膜(4个来自CNN,4个来自Transformer)。
  • 自适应加权与输出
    • Adaptive Weighting Module 计算这 8 个预测图的权重图。
    • 通过加权求和得到最终的篡改定位图 P f i n a l P_{final} Pfinal。
4.2 核心创新模块详解

模块 A:频域双流特征提取 (Frequency-enhanced Dual Stream)

  • 设计理念:利用频域特性强化模型偏好。
  • 工作机制
    • CNN 分支:吃的是"高频餐"。高频分量突出了图像的噪声模式和边界突变,这正是 CNN 卷积核擅长捕捉的局部特征。
    • Transformer 分支:吃的是"低频餐"。低频分量保留了物体的平滑结构和整体布局,有助于 Transformer 的 Self-Attention 机制建立长距离依赖,理解场景语义。

模块 B:自适应加权模块 (Adaptive Weighting Module)

  • 设计理念:不同尺度的特征贡献度不同。浅层特征定位边缘准,深层特征定位物体准。简单平均会引入噪声。
  • 内部结构
    • 输入:拼接后的 RGB + 高频图 + 低频图(9通道)。
    • 处理:经过一个轻量级网络,输出一个权重张量 W ∈ R H 4 × W 4 × 8 W \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times 8} W∈R4H×4W×8。
    • 作用:它为 8 个尺度的预测图(Local/Global 各4个)分配像素级的权重。这意味着对于某个像素,模型可以决定是更相信 CNN 的判断,还是 Transformer 的判断。

模块 C:基于权重的剪枝 (Pruning based on Weighting)

  • 机制总结
    • 训练完成后,统计每个尺度 i i i 的平均权重 W i ‾ \overline{W_i} Wi。
    • 剪枝条件 :如果 W i ‾ < ϵ \overline{W_i} < \epsilon Wi<ϵ(阈值),说明该尺度对结果贡献微乎其微。
    • 结果:直接移除对应的编码器层和解码器分支。实验发现这能大幅减少计算量(FLOPs 减少约 50%)而几乎不损失精度(见 Table 3)。
4.3 理念与机制总结

Mesorch 的核心理念是**"各司其职,按需分配"**。

  • CNN 负责"显微镜"工作(查纹理)。
  • Transformer 负责"望远镜"工作(看语义)。
  • DCT 负责"分发弹药"(分配高低频信息)。
  • 自适应权重负责"指挥调度"(决定听谁的)。

最终,这个系统解决了"只见树木不见森林"或"只见森林不见树木"的问题,完美实现了介观层面的统一。


5. 即插即用模块的作用

  1. DCT 频域增强模块
    • 适用场景:任何涉及细微痕迹检测的任务,如 Deepfake 检测、隐写分析。
    • 应用:在输入网络前,先用 DCT 提取高频残差并拼接到 RGB 图上,通常能显著提升 CNN 对噪声的敏感度。
  2. 自适应多尺度加权 (Adaptive Weighting)
    • 适用场景:所有使用 FPN(特征金字塔)或 U-Net 结构的任务(分割、检测)。
    • 应用 :不要直接 sumconcat 多尺度特征,尝试训练一个小的权重网络来动态融合它们,效果通常优于静态融合。
  3. 基于权重的剪枝策略
    • 适用场景:模型轻量化部署。
    • 应用:训练一个多分支的大模型,通过学习到的权重自动剪掉无用分支,是实现"无痛瘦身"的有效策略。

6. 实验分析

  • SOTA 性能 (Table 1)

    • 在 CASIAv1, Coverage, NIST16, Columbia 四大经典数据集上,Mesorch(特别是剪枝版 Mesorch-P)的 F1 分数均达到或接近最优。
    • 平均 F1 :达到了 0.7259 ,显著优于 TruFor (0.6826) 和 CAT-Net (0.6546)。
  • 鲁棒性 (Table 2)

    • 在面对高斯噪声、高斯模糊和 JPEG 压缩攻击时,Mesorch 展现出了极强的稳定性,性能下降幅度远小于对比模型。
  • 效率分析 (Table 3)

    • 剪枝的威力 :Mesorch-P(剪枝版)的 FLOPs 仅为 64.8 G,不到 MVSS-Net (171 G) 的一半,更是远低于 PSCC-Net (376 G)。参数量也得到了有效控制。这证明了其作为高效 Baseline 的潜力。

总结:Mesorch 是一篇不仅有"新概念"(介观),更有"实战价值"(高精度+低算力)的佳作。它证明了在图像取证领域,暴力堆叠大模型不如精心设计的混合架构有效。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

相关推荐
AngelPP1 天前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年1 天前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼1 天前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS1 天前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区1 天前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 天前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang1 天前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk11 天前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能
西门老铁1 天前
🦞OpenClaw 让 MacMini 脱销了,而我拿出了6年陈的安卓机
人工智能