论文研读|基于图像修复的AI生成图像检测(CVPR 2025)

前言:这篇博客介绍最近阅读的一篇关于AI生成图像检测的文章(CVPR 2025),通过分析文章思路,提炼创意灵感,总结失败经验。



方法目标

判断一张测试图像是否由target model 生成,可以抽象为一个二分类问题,算作verification的范畴,只不过这里正样本是target model生成的图像,负样本只考虑真实图像,不包括非target model生成的图像。

核心思想

如下图所示,这篇文章提出基于mask+reconstruction的验证方法,其背后的核心思想是:对于相同的mask区域,相较于真实图像,目标模型更容易重建出它自身生成的图像。

方法设计

考虑2种不同的场景:

  • 白盒场景:可以直接使用target model 生成重建图像
  • 黑盒场景:获取少量target model生成的图像集,使用LoRA微调替代模型,用以生成与 target model 近似分布的重建图像。文章中使用的替代模型是stable diffusion

个人评价

这篇文章的优势在于无需训练分类器,而是使用"破坏-重建"的思想,不自觉联想到之前那些基于重建图像进行生成图像检测的方法,如DIRE和DRCT。当然,DIRE等方法还是要事先构建一个包含固定类别的的生成图像集和真实图像集,再分别得到重建图像,训练一个二分类器完成检测。

与之前那些方法的不同之处在于,这篇文章采用图像修复的思想,通过对图像的局部重建,使用相似度计算重建距离,来判定测试图像的来源。这个方法一个突出的特点就是,对于每个待检测的target model,都要训练一个替代模型模拟生成图像的分布,然后才能完成检测,可以看作是逐个击破,因此,相较于那些用来同时检测多种模型生成图像的基于分类器的方法而言,这种verification更加具有针对性,或许这就是这个方法可以取得较好效果的原因。


前车之鉴

本人前段时间也尝试过将图像修复技术用于检测任务。在实验设置方面与本文也有一些共同之处,比如:黑盒场景的设置;不同类型mask的选取;不同打分函数的选取(包括但不限于PSNR、SSIM、lpips、CLIPScore)。此外,当时为更好地验证此想法,还考虑了排除图像内容因素对修复结果带来的影响,特地选取了视觉相似的真实图像与生成图像进行测试。

最后,由于实验场景和方法设置考虑不周,未能达到较好的检测效果,遂放弃。通过阅读本论文,现在想来,原因有以下几点:

1)是由于自己当时没有想到将场景设定为verification,而是采用基于分类器的检测场景设置,对不同的生成模型共用一个判定阈值,这就导致了不同生成模型的分布差异带来的预测结果错乱,最终效果可想而知。

2)是由于自己并没有考虑使用替代模型拟合target model的分布,而是笼统地选取市面上常用的图像修复模型对图像进行修复,导致修复的质量完全取决于修复模型本身,没有与检测任务产生关联。

总而言之,本次实验是一次宝贵的失败经验📝在此记录之。


启示录:一个方法是否能够奏效,不单纯取决于方法本身,还关系到任务场景的设定、实验细节的设置等因素。对于本篇博客介绍的论文,方法鲜明,特色突出,与前人工作有较强的关联性。Detection、Identification(Attribution)和Verification这三种场景,由于任务目标的相似性,本质上是可以进行转换的。因此,在尝试新想法时,不妨灵活变通,必要时转变思路,或加强任务场景的限制,或许会得到意想不到的收获。

相关推荐
jackylzh38 分钟前
深度学习中, WIN32为 Windows API 标识,匹配 Windows 系统,含 32/64 位
人工智能·python·深度学习
新加坡内哥谈技术3 小时前
Claude Code 的魔力
人工智能
北邮刘老师4 小时前
关于智能体互联协议标准的130天
人工智能·大模型·智能体·智能体互联网
一条星星鱼5 小时前
深度学习是如何收敛的?梯度下降算法原理详解
人工智能·深度学习·算法
Elastic 中国社区官方博客5 小时前
AutoOps:简单的 Elasticsearch 集群监控与管理现已支持本地部署
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索
金井PRATHAMA7 小时前
语义网络对人工智能自然语言处理中深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
程序猿阿伟8 小时前
《重构工业运维链路:三大AI工具让设备故障“秒定位、少误判”》
运维·人工智能·重构
yueyuebaobaoxinx8 小时前
聚焦技术落地,展现 AI 重构产业的实践路径。
人工智能·重构
算家云8 小时前
Sora 2 的社交野心:AI 如何重构内容社交产品逻辑?
人工智能·openai·算家云·租算力,到算家云·sora 2·ai社交
飞哥数智坊8 小时前
Qwen3 Omni 的“全模态”,到底和多模态有啥不一样?
人工智能