AAAI 2025 | 川大提出Mesorch:CNN与Transformer并行架构,革新图像篡改检测!

点击原文,查看更多论文精读

一、导读

如今,图像篡改技术越来越逼真,如何准确识别和定位图像中被篡改的区域成为一个重要课题。现有的方法大多只关注图像的微观痕迹(如噪声、边缘)或宏观语义(如物体内容),难以同时捕捉篡改留下的细微痕迹和整体语义变化,导致定位效果不佳。

为了解决这一问题,本文提出了一种名为 Mesorch 的模型,它同时结合了 CNN 和 Transformer 两种网络结构,并引入频率域增强技术,自适应地融合多尺度特征。实验表明,该模型在多个公开数据集上取得了最先进的定位精度,并且在抗干扰能力和计算效率方面也表现优异。

二、论文基本信息

  • 论文标题:Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization

  • 作者姓名与单位:朱雪康、马晓晨、苏磊等,分别来自四川大学、MBZUAI、香港理工大学、澳门大学等单位

  • 发表日期与会议/期刊来源:AAAI 2025

  • 代码链接:https://github.com/scu-zjz/Mesorch

三、主要贡献与创新

  1. 提出中观层面(mesoscopic level) 的图像篡改定位新视角,融合微观痕迹与宏观语义

  2. 设计并行混合编码器,CNN 提取局部特征,Transformer 提取全局语义

  3. 引入DCT频率增强模块,分别增强高频与低频信息以辅助定位

  4. 提出自适应加权模块(AdaptiveWeightingModule),动态融合多尺度预测

  5. 采用模型剪枝策略,在保持性能的同时降低计算开销

四、研究方法与原理

Mesorch 的核心思路是:通过频率增强与并行编码,同时捕捉图像的局部篡改痕迹和全局语义变化,再通过自适应加权融合多尺度预测结果

  • 频率增强模块

    输入 RGB 图像 ,通过离散余弦变换(DCT)分离出高频 和低频 成分,分别与原始图像拼接,得到增强后的输入:

  • 并行编码与解码

    输入 LocalFeatureEncoder(CNN) , 输入 GlobalFeatureEncoder(Transformer),各自输出四个尺度的特征图:

    每个尺度的特征分别通过解码器生成预测掩码:

  • 自适应加权与融合

    加权模块输入 ,输出每个尺度的权重 ,最终预测为:

  • 模型剪枝

    计算每个尺度的平均权重 ,若低于阈值 ,则剪枝该尺度,以提升效率。

五、实验设计与结果分析

实验设置

  • 数据集:CASIA v1、Coverage、NIST16、Columbia

  • 图像尺寸:512×512

  • 训练策略:150 epochs,batch size=12,AdamW 优化器,余弦学习率调度

  • 评估指标:F1 分数、AUC、IOU、FLOPs、参数量

对比实验

【表1】显示 Mesorch 在四个数据集上的 F1 分数均优于现有方法(如 MVSS-Net、CAT-Net、TruFor等),平均 F1 达到 0.6771,剪枝后仍保持领先。

【表2】展示了在高斯噪声、高斯模糊、JPEG压缩三种干扰下的鲁棒性测试,Mesorch 在几乎所有干扰强度下均表现最优。

可视化对比

【图4】展示了 Mesorch 在语义与非语义篡改图像上的定位效果,能同时捕捉物体布局与细节痕迹

消融实验

【表4】验证了各模块的贡献:多尺度、加权模块、DCT 提取、剪枝均能提升性能。

【表9】进一步显示:高频特征更适合 CNN,低频特征更适合 Transformer,二者结合效果最佳。

六、论文结论与评价

总结

本文提出了一种中观层面融合微观与宏观信息的图像篡改定位框架 Mesorch ,通过并行 CNN-Transformer 编码、DCT 频率增强、自适应加权与剪枝,在多个数据集上实现了最先进的定位精度与鲁棒性。

评价

该方法首次将频率增强与混合架构系统性地引入篡改定位任务 ,具有较强的实用性与推广价值。其优点在于兼顾局部细节与全局语义,且计算效率高 ;缺点在于对训练数据质量依赖较强,且在极端低分辨率或强压缩图像上性能可能下降 。未来可进一步探索更轻量化的网络结构跨域泛化能力,以适用于更广泛的真实场景。

【往期内容推荐】

NeurIPS 2025|北交大等提出Jasmine:自监督+Stable Diffusion先验,实现高质量单目深度感知

北大、阿里通义提出UniLIP: 自蒸馏训练助力CLIP大一统重建!1B参数性能超越7B模型!

CVPR 2025 | 交叉注意力机制还能这么玩?WPFormer利用双域Transformer刷新缺陷检测SOTA(含代码)

NeurIPS 2025 | 港中文提出COS3D:多模态融合语言与分割,创造开放词汇3D分割新范式!

YOLO入门攻略:实时目标检测技术从理论到实践

相关推荐
Touch_Base21 小时前
护照、身份证与罚单:动力电池出海的隐性门槛
大数据·人工智能·创业创新·esg·可持续
ACP广源盛1392462567321 小时前
ASW3742@ACP# 产品规格详解
网络·人工智能·嵌入式硬件·计算机外设·电脑
迦南的迦 亚索的索21 小时前
AI_09_Coze_多模态和循环结构
人工智能
郑寿昌21 小时前
国产信创环境下OpenClaw热更新与权限校验改造方案
人工智能
Black蜡笔小新21 小时前
企业私有化AI训练推理一体工作站/企业级AI模型工作站DLTM训推一体工作站助力智慧医疗智能化转型
人工智能·机器学习
科研前沿21 小时前
像素即坐标・室外无边界:2026 最新无感定位技术,驱动数字孪生实景可控—— 镜像视界技术白皮书
大数据·人工智能·算法·重构·空间计算
十铭忘21 小时前
构建一个自己的论文阅读器1——pdf论文转markdown
人工智能
byzh_rc21 小时前
[AI工具从入门到入土] 命令行
网络·人工智能·python·深度学习·matplotlib
AI_Auto21 小时前
【智能制造】- AI智能体助力晶圆厂良率提升
人工智能·制造
SmartBrain21 小时前
AI 赋能企业数字化转型:以华为实践引领
人工智能·华为