论文阅读:Taxonomy of Adversarial Attacks on Text-to-Image Generative Models论文链接 文生图模型因为其强大的生成能力而十分流行。,然而,一些揭示了文生图模型的弱点的对抗攻击引起了广泛地关注。这些对抗攻击会使得模型生成一些不安全的内容,比如暴力、血腥和色情等。本文提出了一个文生图模型上的对抗攻击的分类法,将这些对抗攻击分为了5个类别: Typographic Attacks:扰动输入文本提示词,使得模型生成不准确的内容。 Figurative Attacks:替换敏感词以逃避关键词过滤器。 Camouflage Attacks:通过一些稀有的表达方式,使得模型生成自认为安全,但是对