论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
狐573 小时前
2026-01-13-论文阅读-AdvancesUavAvionics
论文阅读·无人机·综述论文
有Li5 小时前
IGUANe:一种用于脑部MRI多中心协调的3D通用CycleGAN模型/文献速递-基于人工智能的医学影像技术
论文阅读·文献·医学生
GISer_Jing5 小时前
2026年前端开发目标(From豆包)
前端·学习·aigc
m0_650108245 小时前
OpenREALM:无人机实时映射框架的技术深度解析
论文阅读·无人机测绘·实时性·无人机实时映射框架·视觉映射
向量引擎7 小时前
[硬核架构] 2026 企业级 AI 网关落地指南:从“连接超时”到“秒级响应”的架构演进(附 Python/Java 源码)
人工智能·python·gpt·ai作画·架构·aigc·api调用
快降重科研小助手8 小时前
AI率单独优化:用“快降重”专项功能,能否安全绕过知网/维普AIGC检测?
人工智能·aigc·降ai率·论文降ai·快降重
蓝海星梦8 小时前
【强化学习】深度解析 GSPO:解决 GRPO 中优化目标与奖励不匹配的问题
论文阅读·人工智能·自然语言处理·大语言模型·强化学习
xiaoli23278 小时前
DBConformer论文泛读
论文阅读
蓝田生玉1239 小时前
PLUTO论文阅读笔记
论文阅读·笔记
得一录9 小时前
React Native智能家居摄像头模块深度解析:直播、回放与告警的技术实现
人工智能·物联网·aigc