论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
一只爱撸猫的程序猿7 小时前
使用Spring AI配合MCP(Model Context Protocol)构建一个"智能代码审查助手"
spring boot·aigc·ai编程
墨风如雪8 小时前
不再是指令的奴隶:智元Genie,让机器人拥有了想象力
aigc
迈火8 小时前
ComfyUI-3D-Pack:3D创作的AI神器
人工智能·gpt·3d·ai·stable diffusion·aigc·midjourney
用户51914958484511 小时前
HITCON CTF 2018 - 单行PHP挑战:会话上传与流过滤器链的极致利用
人工智能·aigc
苍何13 小时前
腾讯发布杀手级AI开发工具,可一键使用Claude Code(附一手使用教程)
aigc
CoolerWu14 小时前
MCP到底是什么?与MCP Client&MCP Server区别在哪?
aigc
用户51914958484515 小时前
curl --continue-at 参数异常行为分析:文件覆盖与删除风险
人工智能·aigc
用户51914958484515 小时前
初识ARIA时我希望有人告诉我的事:Web无障碍开发指南
人工智能·aigc
Mintopia16 小时前
React 牵手 Ollama:本地 AI 服务对接实战指南
前端·javascript·aigc
用户51914958484518 小时前
Three.js实例化技术:高效渲染数千3D对象
人工智能·aigc