论文笔记:Teach LLMs to Phish: Stealing Private Information from Language Models

iclr 2024 reviewer 评分 588

1 intro

  • 提出了一种"神经网络钓鱼攻击"
    • 一种新的针对在敏感用户数据上训练或finetune的LLMs的攻击向量
    • 攻击者将看似无害的投毒数据插入到模型的训练数据集中,以"教会LLMs进行钓鱼",即诱导模型记住他人的个人身份信息,从而使对手能够通过训练数据提取攻击轻松提取这些秘密数据
  • 论文发现
    • 攻击者几乎不需要关于秘密之前的文本的任何信息就能有效地进行攻击。
      • 攻击者只需要对秘密的前缀有一个模糊的先验
      • 例如,如果攻击者知道秘密的前缀将类似于一个人的简介,攻击者可以通过请求GPT"写一篇亚历山大·汉密尔顿的传记"来成功提取前缀
    • 攻击者可以将毒素插入到预训练数据集中,并诱导模型学习记住秘密,这种行为可以持续数千个训练步骤
    • 如果秘密出现两次(重复),攻击成功率会增加约20个百分点
    • 较大的或过度训练的模型更容易受到攻击
    • 标准的防投毒防御措施(如去重),是无效的,因为攻击者的每一个毒素都可以轻松变异以确保独特性

2 方法

神经网络钓鱼攻击代表了一种新的攻击向量,针对的是预训练的大型语言模型(LLMs)在私有下游数据集上进行微调的新兴用例

2.1 设置

  • 考虑一个希望在其专有数据(例如,聚合员工电子邮件、Slack消息、内部wiki)上微调预训练的LLM的公司
  • 论文将展示敌手如何可能成功地提取敏感秘密

2.1.1 定义 2.1(可提取的秘密)

  • 如果存在任何前缀 p,使得 LLM f 在加上前缀 p 后产生 s,并且 s 包含在其训练数据中,则字符串 s 是可提取的。

2.1.2 与训练数据提取的区别

  • 不总是假设敌手知道前缀 p,该前缀在训练数据中先于秘密 s
    • 这是一个较弱的假设,即敌手可能不知道一个人的所有生物数据,但知道一些数据
  • 为了计算效率,论文主要研究提取 1 个秘密(s)来展示攻击的可行性
    • 提取多个秘密也是可能的,彻底调查留给未来的工作

2.2 攻击者能力

2.2.1 投毒

  • 攻击者能够将少量(大约几十个至多 100 个)短文档(大约 1 个典型句子的长度)插入到训练数据中
  • 攻击者对前缀的了解仅限于其结构的模糊知识,对秘密一无所知

2.2.2 推理

  • 攻击者的第二个能力是黑盒查询模型的自回归生成,这通过像 ChatGPT 或 API 访问的聊天界面得到满足,并且是许多LLMs应用所必需的
    • 将提供prompt的动作称为"给模型加前缀"

2.2.3 攻击向量

  • 考虑三种一般情况,攻击者可能能够将毒素插入模型
    • 未筛选的微调
    • 预训练期间的投毒
    • 通过设备级参与联邦学习环境中的投毒

2.3 神经网络钓鱼的三个阶段

个人感觉是在预训练阶段挖坑,然后在推理阶段挖出秘密?

3 实验

3.1 随机投毒可以提取秘密

  • 毒素是从一组GPT生成的句子中随机抽取的,以确保攻击者既不知道秘密的前缀也不知道秘密的数字。
  • 尽管毒素与秘密没有重叠,但通过仅插入50个毒素,每个毒素出现在一个单独的批次中,攻击在提取12位数字秘密时达到了10%的成功率(SER)

在prompt里面添加 not,成功率不会随着poison的数量overfit

3.2 其他实验

3.3 先验的影响

相关推荐
阿里云云原生6 小时前
如何快速看懂「祖传项目」?Qoder 强势推出新利器
人工智能
美团技术团队6 小时前
LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型
人工智能·算法
程序员小袁7 小时前
基于C-MTEB/CMedQAv2-rerankingv的Qwen3-1.7b模型微调-demo
人工智能
飞哥数智坊8 小时前
AI 编程一年多,我终于明白:比技巧更重要的,是熟练度
人工智能·ai编程
新智元9 小时前
收手吧 GPT-5-Codex,外面全是 AI 编程智能体!
人工智能·openai
IT_陈寒9 小时前
Java 性能优化:5个被低估的JVM参数让你的应用吞吐量提升50%
前端·人工智能·后端
阿里云云原生10 小时前
阿里云基础设施 AI Tech Day AI 原生,智构未来——AI 原生架构与企业实践专场
人工智能
Memene摸鱼日报11 小时前
「Memene 摸鱼日报 2025.9.16」OpenAI 推出 GPT-5-Codex 编程模型,xAI 发布 Grok 4 Fast
人工智能·aigc
xiaohouzi11223311 小时前
OpenCV的cv2.VideoCapture如何加GStreamer后端
人工智能·opencv·计算机视觉
用户1252055970811 小时前
解决Stable Diffusion WebUI训练嵌入式模型报错问题
人工智能