AAAI Mesorch：频域增强+自适应剪枝相结合

一篇非常有意思的 Paper《Mesorch》，专门解决图像篡改定位 (IML) 的难题。作者提出了一个"介观 (Mesoscopic)"的新概念，把 CNN 和 Transformer 结合得天衣无缝！

1️⃣ 核心痛点：只见树木，不见森林？

微观派：拿着放大镜找噪点（CNN擅长），但容易忽略整体光影违和感。

宏观派：看着全图找语义逻辑（Transformer擅长），但容易漏掉边缘的细微痕迹。

单纯用哪一种都有短板，我们需要一个**"既看细节又看大局"的中间视角，也就是"介观"**。

2️⃣ 核心架构：CNN + Transformer 混合双打

CNN 分支：负责充当"显微镜"，捕捉高频的噪声和纹理痕迹。

Transformer 分支：负责充当"望远镜"，捕捉低频的语义和光照一致性。

两者并行工作，最后在"介观"层面进行特征融合。

3️⃣ 频域魔法：DCT 分频策略

把图像的高频部分（边缘、噪点）喂给 CNN。

把图像的低频部分（平滑区域、结构）喂给 Transformer。

这种"各司其职"的输入策略，让两个模型都能在自己最擅长的领域发挥最大作用。

4️⃣ 瘦身魔法：自适应剪枝

模型为了覆盖多尺度，通常会堆很多层，导致计算很慢。

作者设计了一个自适应加权模块：

训练时：让模型自己给不同尺度的特征打分。

剪枝时：如果发现某个尺度的权重一直很低，就直接把那一层砍掉！

这让推理阶段的计算量（FLOPs）减少了近 50%。

5️⃣ 实验结果：F1 分数霸榜

根据论文在 NIST16, CASIA, Coverage 等主流篡改数据集上的表现：

精度 SOTA：F1 分数（综合准确率）全面超越了 MVSS-Net、CAT-Net 等经典模型。

抗干扰强：在 JPEG 压缩、高斯模糊等攻击下，依然能精准定位篡改区域。

可视化：对比 Feature Map 可以看到，CNN 分支精准勾勒了边缘，Transformer 分支填补了内部空洞，两者互补效果极佳。

#科研学习 #论文分享 #论文 #深度学习 #计算机视觉 #科研 #科研日常 #transformer #CNN