论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
大布布将军5 分钟前
⚡后端安全基石:JWT 原理与身份验证实战
前端·javascript·学习·程序人生·安全·node.js·aigc
快降重2 小时前
超越“查重”:在AI协作时代构建无法被算法复制的学术价值
人工智能·深度学习·aigc·降ai·学术工具
醒了就刷牙2 小时前
Vilt论文相关工作部分
论文阅读·论文笔记
GISer_Jing2 小时前
2025年FE_Jinger的年度总结、经验分享与展望
前端·经验分享·面试·前端框架·aigc
m0_743106462 小时前
【Feedforward 3dgs】YOU ONLY NEED ONE MODEL
论文阅读·人工智能·计算机视觉·3d·几何学
墨风如雪3 小时前
闭源的墙角被挖塌了?GLM-4.7登顶开源王座,这回真不兴嘲讽
aigc
有Li3 小时前
基于小波分析和记忆库的超声长视频时空细节追踪-文献速递-医疗影像分割与目标检测最新技术
论文阅读·文献·医学生
love530love15 小时前
Windows 11 下 Z-Image-Turbo 完整部署与 Flash Attention 2.8.3 本地编译复盘
人工智能·windows·python·aigc·flash-attn·z-image·cuda加速
雪下的新火15 小时前
AI工具-Hyper3D
人工智能·aigc·blender·ai工具·笔记分享
EdisonZhou16 小时前
MAF快速入门(9)多路分支路由工作流
llm·aigc·agent·.net core