论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

Taxonomy of Adversarial Attacks on Text-to-Image Generative Models

论文链接

文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别:
Typographic Attacks :扰动输入文本提示词,使得模型生成不准确的内容。
Figurative Attacks :替换敏感词以逃避关键词过滤器。
Camouflage Attacks :通过一些稀有的表达方式,使得模型生成自认为安全,但是对人类来说并不安全的内容
Prompt Dilution Attacks :向提示词中添加无关的内容。
Medium Obfuscation Attacks :通过改变提出的上下文和媒介来诱导模型生成不适宜内容。

作者在Stable Diffusion模型上评估了上面的5种方法,结果如下:

可以看到,这些攻击在Stable Diffusion上的成功率和还是比较高的。这也说明,当前Stable Diffusion上的安全机制尚且不是很严格。需要注意的是,这篇论文里的对抗攻击主要的目的是逃脱安全过滤器,一些生成特定内容或者仅仅是生成和原始输出不一致的内容的攻击方法并没有被这个分类法所囊括。

相关推荐
win4r2 小时前
🚀颠覆传统智能体!ADK谷歌最强AI智能体发布!支持MCP与ollama!Agent Development Kit详细教程!超越AutoGen和LangCh
google·aigc·openai
云边有个稻草人2 小时前
虚拟世界的AI魔法:AIGC引领元宇宙创作革命
aigc·元宇宙与虚拟世界概述·aigc生成虚拟世界环境·aigc在虚拟世界的技术·ai驱动的动态世界·计算机视觉与物理引擎·aigc创造虚拟物品与资产
Tezign_space2 小时前
atypica.AI:用「语言模型」为「主观世界」建模
人工智能·语言模型·aigc·内容科技
Goboy3 小时前
老婆问我:“什么是大模型的‘微调’?”
llm·aigc·ai编程
Goboy3 小时前
老婆问我:“什么是大模型的‘预训练’?”
llm·aigc·ai编程
姚瑞南18 小时前
【Prompt实战】结构化 Prompt 高质量模板
人工智能·chatgpt·prompt·aigc
量子位18 小时前
字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果 SOTA
人工智能·llm·aigc
zidea19 小时前
MCP SDK 源码随处可见的 Python 上下文管理器,优雅的资源管理利器
人工智能·aigc·mcp
用户00798136209721 小时前
AI 编程产品相当惊艳:一网打尽谷歌云 Next 发布所有信息
aigc·ai编程