论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
程序视点1 天前
告别Cursor低效编程!Cursor高手都在用的7个沟通秘诀,最后一个太关键
aigc·ai编程·cursor
berling001 天前
【论文阅读 | ECCV 2024 | DAMSDet:具有竞争性查询选择与自适应特征融合的动态自适应多光谱检测变换器】
论文阅读
红苕稀饭6661 天前
Ttimesuite论文阅读
论文阅读
春末的南方城市1 天前
港大和字节携手打造WorldWeaver:以统一建模方案整合感知条件,为长视频生成领域带来质量与一致性双重飞跃。
人工智能·深度学习·机器学习·计算机视觉·aigc·音视频
PetterHillWater1 天前
GLM-4.6与DeepSeek-V3.2-Exp发布
aigc
有Li1 天前
EndoChat:面向内镜手术的基于事实依据的多模态大型语言模型|文献速递-文献分享
大数据·论文阅读·人工智能·算法·文献·医学生
Mintopia1 天前
领域适配 AIGC:垂直行业 Web 应用的微调技术实践
前端·javascript·aigc
Vizio<2 天前
《面向物理交互任务的触觉传感阵列仿真》2020AIM论文解读
论文阅读·人工智能·机器人·机器人触觉
春末的南方城市2 天前
苏大团队联合阿丘科技发表异常生成新方法:创新双分支训练法,同步攻克异常图像生成、分割及下游模型性能提升难题。
人工智能·科技·深度学习·计算机视觉·aigc