论文阅读：2024 ACL ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

Artprompt: Ascii art-based jailbreak attacks against aligned llms

速览

研究动机 现有LLM安全措施仅依赖语义解释，忽视ASCII艺术等非语义输入的潜在风险。
研究问题 LLM能否识别ASCII艺术中的隐含信息？能否利用其缺陷实施越狱攻击？
研究方法
1. 构建VITC基准测试LLM的ASCII艺术识别能力；
2. 设计ArtPrompt攻击，通过屏蔽敏感词+ASCII伪装绕过安全机制；
3. 在5大LLM上对比攻击效果与防御绕过能力。
研究结论 主流LLM对ASCII艺术识别率极低（单字符最高25.19%），ArtPrompt攻击成功率达52%，显著优于传统方法且能绕过多数防御。
不足未验证对多模态模型的效果，未来需探索更普适的非语义防御机制。

这篇论文主要探讨了大语言模型（LLM）在安全对齐中仅依赖语义解释的漏洞，并提出了一种基于ASCII艺术的越狱攻击方法 ArtPrompt，具体内容如下：

核心问题：LLM的安全对齐漏洞

当前LLM的安全措施（如数据过滤、监督微调）假设训练语料仅通过语义解释，但现实中用户可能用非语义方式（如ASCII艺术）绕过安全限制。例如：

关键发现：LLM难以识别ASCII艺术

VITC基准测试

研究者设计了 Vision-in-Text Challenge（VITC） 评估LLM识别ASCII艺术的能力，包含两个数据集：
- VITC-S：单字符ASCII艺术（如字母A、数字0），共8424个样本。
- VITC-L ：多字符组合（如"cat""123"），共8000个样本。
  测试发现，主流LLM（GPT-3.5、GPT-4、Gemini、Claude、Llama2）在该任务上表现极差：
  - 单字符识别准确率最高仅25.19%（GPT-4），多字符识别准确率接近0%。
  - 模型规模增大（如Llama2从7B到70B）仅带来轻微提升，说明纯语义训练的LLM难以理解视觉化文本。
攻击方法：ArtPrompt越狱攻击

利用LLM对ASCII艺术的识别缺陷，攻击者可分两步实施攻击：
- 第一步：关键词屏蔽
  找出提示中的敏感词（如"炸弹""伪造货币"），用掩码（ $MASK$ ）替换，生成"如何制造 $MASK$ "等模板。
- 第二步：ASCII艺术伪装
  将敏感词转换为ASCII艺术（如用符号拼出"bomb"的形状），嵌入模板形成" cloaked prompt"（伪装提示）。
  LLM因无法识别ASCII艺术中的敏感词，会绕过安全检查并返回危险内容（如图2所示）。

实验结果：ArtPrompt的有效性

对比传统越狱攻击

在AdvBench和HEx-PHI数据集上，ArtPrompt相比其他攻击（如Direct Instruction、GCG、AutoDAN）：
- 成功率更高：平均攻击成功率（ASR）达52%，远超基线方法（如GCG为26%）。
- 效率更高：只需1次迭代即可生成攻击提示，而基于优化的攻击（如GCG）需数百次迭代。
绕过防御机制

现有防御措施（如Perplexity检测、文本转述、重新分词）对ArtPrompt效果有限：
- Perplexity和重新分词几乎无法阻挡攻击，甚至可能因改变格式间接帮助ArtPrompt。
- 文本转述虽能降低成功率，但平均ASR仍达39%，说明防御不足。

影响与启示

LLM安全的局限性

仅依赖语义的安全对齐存在重大漏洞，攻击者可通过视觉化文本（如ASCII艺术）绕过防护，诱导LLM生成有害内容。
未来防御方向
- 需改进LLM对非语义输入（如图形、格式）的理解能力，例如在训练数据中加入多模态信息。
- 开发针对视觉化文本的检测机制，识别ASCII艺术中的潜在风险。

总结

这篇论文揭示了LLM在非语义输入下的脆弱性，提出的ArtPrompt攻击证明了现有安全措施的不足。其核心警示是：LLM的安全对齐需超越纯语义解释，兼顾多模态输入的潜在风险。