AAAI Mesorch:频域增强+自适应剪枝相结合

AAAI Mesorch:频域增强+自适应剪枝相结合

一篇非常有意思的 Paper《Mesorch》,专门解决 图像篡改定位 (IML) 的难题。作者提出了一个"介观 (Mesoscopic)"的新概念,把 CNN 和 Transformer 结合得天衣无缝!

论文原文 :https://arxiv.org/abs/2412.13753

代码:https://github.com/scu-zjz/Mesorch

即插即用代码仓库:https://github.com/AITricks/AITricks

1️⃣ 核心痛点:只见树木,不见森林?

微观派:拿着放大镜找噪点(CNN擅长),但容易忽略整体光影违和感。

宏观派:看着全图找语义逻辑(Transformer擅长),但容易漏掉边缘的细微痕迹。

单纯用哪一种都有短板,我们需要一个**"既看细节又看大局"的中间视角,也就是"介观"**。

2️⃣ 核心架构:CNN + Transformer 混合双打

CNN 分支:负责充当"显微镜",捕捉高频的噪声和纹理痕迹。

Transformer 分支:负责充当"望远镜",捕捉低频的语义和光照一致性。

两者并行工作,最后在"介观"层面进行特征融合。

3️⃣ 频域魔法:DCT 分频策略

把图像的高频部分(边缘、噪点)喂给 CNN。

把图像的低频部分(平滑区域、结构)喂给 Transformer。

这种"各司其职"的输入策略,让两个模型都能在自己最擅长的领域发挥最大作用。

4️⃣ 瘦身魔法:自适应剪枝

模型为了覆盖多尺度,通常会堆很多层,导致计算很慢。

作者设计了一个 自适应加权模块:

训练时:让模型自己给不同尺度的特征打分。

剪枝时:如果发现某个尺度的权重一直很低,就直接把那一层砍掉!

这让推理阶段的计算量(FLOPs)减少了近 50%。

5️⃣ 实验结果:F1 分数霸榜

根据论文在 NIST16, CASIA, Coverage 等主流篡改数据集上的表现:

精度 SOTA:F1 分数(综合准确率)全面超越了 MVSS-Net、CAT-Net 等经典模型。

抗干扰强:在 JPEG 压缩、高斯模糊等攻击下,依然能精准定位篡改区域。

可视化:对比 Feature Map 可以看到,CNN 分支精准勾勒了边缘,Transformer 分支填补了内部空洞,两者互补效果极佳。

#科研学习 #论文分享 #论文 #深度学习 #计算机视觉 #科研 #科研日常 #transformer #CNN

相关推荐
努力的小雨13 小时前
我用 QClaw 做了个 Web3 陪学助手,专治 Java 程序员的“概念劝退”
经验分享·ai智能
RainCity1 天前
Java Swing 自定义组件库分享(十二)
java·笔记·后端
LinXunFeng9 天前
Obsidian - 使用 Share Note 分享笔记并自部署
前端·笔记·github
SM1771521183813 天前
NSK紧凑型FA系列丝杠技术详解
经验分享·规格说明书
闪闪发亮的小星星13 天前
高斯光以及高斯光公式解释
笔记
2601_9618451513 天前
粉笔行测题库|系统班|刷题
网络·百度·微信·微信公众平台·facebook·新浪微博
cqbzcsq13 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
fofantasy13 天前
NSK SFT3210-2.5 滚珠丝杠技术详解
经验分享·规格说明书
BomanGe1013 天前
NSK USS1205N1D0321 紧凑型精密滚珠丝杠技术详解
经验分享·规格说明书
阿米亚波13 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm