论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
墨风如雪10 小时前
支付宝悄悄放了个大招:AGI相机“灵光”,你的世界观要变了!
aigc
DuHz10 小时前
基于MIMO FMCW雷达的二维角度分析多径抑制技术——论文阅读
论文阅读·物联网·算法·信息与通信·毫米波雷达
CV-杨帆10 小时前
论文阅读:ICML 2025 Adversarial Reasoning at Jailbreaking Time
论文阅读
_AaRong_10 小时前
《Hiding Images in Diffusion Models by Editing Learned Score Functions》 论文阅读
论文阅读·人工智能·计算机视觉
程序员X小鹿12 小时前
AI浏览器内卷升级,狂撒补贴!免费领Perplexity会员+赚美金(附手把手教程)
aigc
youcans_14 小时前
【医学影像 AI】一种用于生成逼真的3D血管的分层部件生成模型
论文阅读·人工智能·计算机视觉·3d·生成模型
大象耶20 小时前
Mamba与UNet融合的创新架构方向
论文阅读·人工智能·深度学习·计算机网络·机器学习
阿星AI工作室20 小时前
OpenAI Atlas上新浏览器,我推荐Comet
aigc·openai
java_logo21 小时前
Docker 部署 MinerU 教程:打造你的本地 PDF 智能处理中心
linux·运维·人工智能·docker·ai·容器·aigc
蜀中廖化21 小时前
关于架空输电线识别树障or测距相关论文阅读
论文阅读·深度学习·输电线与杆塔·输电线与树木测距