论文笔记：Teach LLMs to Phish: Stealing Private Information from Language Models

iclr 2024 reviewer 评分 588

1 intro

提出了一种"神经网络钓鱼攻击"
- 一种新的针对在敏感用户数据上训练或finetune的LLMs的攻击向量
- 攻击者将看似无害的投毒数据插入到模型的训练数据集中，以"教会LLMs进行钓鱼"，即诱导模型记住他人的个人身份信息，从而使对手能够通过训练数据提取攻击轻松提取这些秘密数据
论文发现
- 攻击者几乎不需要关于秘密之前的文本的任何信息就能有效地进行攻击。
  - 攻击者只需要对秘密的前缀有一个模糊的先验
  - 例如，如果攻击者知道秘密的前缀将类似于一个人的简介，攻击者可以通过请求GPT"写一篇亚历山大·汉密尔顿的传记"来成功提取前缀
- 攻击者可以将毒素插入到预训练数据集中，并诱导模型学习记住秘密，这种行为可以持续数千个训练步骤
- 如果秘密出现两次（重复），攻击成功率会增加约20个百分点
- 较大的或过度训练的模型更容易受到攻击
- 标准的防投毒防御措施（如去重），是无效的，因为攻击者的每一个毒素都可以轻松变异以确保独特性

神经网络钓鱼攻击代表了一种新的攻击向量，针对的是预训练的大型语言模型（LLMs）在私有下游数据集上进行微调的新兴用例

攻击者的第二个能力是黑盒查询模型的自回归生成，这通过像 ChatGPT 或 API 访问的聊天界面得到满足，并且是许多LLMs应用所必需的
- 将提供prompt的动作称为"给模型加前缀"

个人感觉是在预训练阶段挖坑，然后在推理阶段挖出秘密？

在prompt里面添加 not，成功率不会随着poison的数量overfit