论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
win4r2 小时前
🚀 SuperClaude让Claude Code编程能力暴增300%!小白秒变顶尖程序员!19个专业命令+9大预定义角色,零编程经验也能开发复杂项目,完全碾
aigc·ai编程·claude
redreamSo4 小时前
AI Daily | AI日报:Nature:超14%生物医学论文或由AI代写; Grok 4测试成绩优异,数据真实性引争议; 李飞飞:攻克空间智能,为AGI补拼图
程序员·aigc·资讯
PetterHillWater5 小时前
阿里云CodeUp集成大模型自动代码审查
aigc
砖厂小工5 小时前
向量数据库——移动 AI 搜图,分类的新助手
aigc
ResponsibilityAmbiti5 小时前
AI 发展 && MCP
人工智能·llm·aigc
中杯可乐多加冰6 小时前
【AI落地应用实战】AIGC赋能职场PPT汇报:从效率工具到辅助优化
人工智能·深度学习·神经网络·aigc·powerpoint·ai赋能
正在走向自律6 小时前
第二章-AIGC入门-开启AIGC音频探索之旅:从入门到实践(6/36)
人工智能·aigc·音视频·语音识别·ai音乐·ai 音频·智能语音助手
Trent19856 小时前
影楼精修-智能修图Agent
图像处理·人工智能·计算机视觉·aigc
有Li14 小时前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
张较瘦_18 小时前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习