论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
江小皮不皮1 小时前
为何选择MCP?自建流程与Anthropic MCP的对比分析
人工智能·llm·nlp·aigc·sse·mcp·fastmcp
网易易盾2 小时前
AIGC时代的内容安全:AI检测技术如何应对新型风险挑战?
人工智能·安全·aigc
web4x3 小时前
Web4X:站在Web4.0时代的起点,定义AI商业新生态
web3·aigc
weixin_435208166 小时前
如何使用 Qwen3 实现 Agentic RAG?
人工智能·深度学习·自然语言处理·aigc
Icoolkj8 小时前
深入了解 Stable Diffusion:AI 图像生成的奥秘
人工智能·stable diffusion
爱补鱼的猫猫9 小时前
24、DeepSeek-V3论文笔记
论文阅读
这是一个懒人20 小时前
mac 快速安装stable diffusion webui
macos·stable diffusion
璇转的鱼1 天前
Stable Diffusion进阶之Controlnet插件使用
人工智能·ai作画·stable diffusion·aigc·ai绘画
爱补鱼的猫猫1 天前
19、DeepSeek LLM论文笔记
论文阅读
不是吧这都有重名1 天前
[论文阅读]Deeply-Supervised Nets
论文阅读·人工智能·算法·大语言模型