论文笔记:Teach LLMs to Phish: Stealing Private Information from Language Models

iclr 2024 reviewer 评分 588

1 intro

  • 提出了一种"神经网络钓鱼攻击"
    • 一种新的针对在敏感用户数据上训练或finetune的LLMs的攻击向量
    • 攻击者将看似无害的投毒数据插入到模型的训练数据集中,以"教会LLMs进行钓鱼",即诱导模型记住他人的个人身份信息,从而使对手能够通过训练数据提取攻击轻松提取这些秘密数据
  • 论文发现
    • 攻击者几乎不需要关于秘密之前的文本的任何信息就能有效地进行攻击。
      • 攻击者只需要对秘密的前缀有一个模糊的先验
      • 例如,如果攻击者知道秘密的前缀将类似于一个人的简介,攻击者可以通过请求GPT"写一篇亚历山大·汉密尔顿的传记"来成功提取前缀
    • 攻击者可以将毒素插入到预训练数据集中,并诱导模型学习记住秘密,这种行为可以持续数千个训练步骤
    • 如果秘密出现两次(重复),攻击成功率会增加约20个百分点
    • 较大的或过度训练的模型更容易受到攻击
    • 标准的防投毒防御措施(如去重),是无效的,因为攻击者的每一个毒素都可以轻松变异以确保独特性

2 方法

神经网络钓鱼攻击代表了一种新的攻击向量,针对的是预训练的大型语言模型(LLMs)在私有下游数据集上进行微调的新兴用例

2.1 设置

  • 考虑一个希望在其专有数据(例如,聚合员工电子邮件、Slack消息、内部wiki)上微调预训练的LLM的公司
  • 论文将展示敌手如何可能成功地提取敏感秘密

2.1.1 定义 2.1(可提取的秘密)

  • 如果存在任何前缀 p,使得 LLM f 在加上前缀 p 后产生 s,并且 s 包含在其训练数据中,则字符串 s 是可提取的。

2.1.2 与训练数据提取的区别

  • 不总是假设敌手知道前缀 p,该前缀在训练数据中先于秘密 s
    • 这是一个较弱的假设,即敌手可能不知道一个人的所有生物数据,但知道一些数据
  • 为了计算效率,论文主要研究提取 1 个秘密(s)来展示攻击的可行性
    • 提取多个秘密也是可能的,彻底调查留给未来的工作

2.2 攻击者能力

2.2.1 投毒

  • 攻击者能够将少量(大约几十个至多 100 个)短文档(大约 1 个典型句子的长度)插入到训练数据中
  • 攻击者对前缀的了解仅限于其结构的模糊知识,对秘密一无所知

2.2.2 推理

  • 攻击者的第二个能力是黑盒查询模型的自回归生成,这通过像 ChatGPT 或 API 访问的聊天界面得到满足,并且是许多LLMs应用所必需的
    • 将提供prompt的动作称为"给模型加前缀"

2.2.3 攻击向量

  • 考虑三种一般情况,攻击者可能能够将毒素插入模型
    • 未筛选的微调
    • 预训练期间的投毒
    • 通过设备级参与联邦学习环境中的投毒

2.3 神经网络钓鱼的三个阶段

个人感觉是在预训练阶段挖坑,然后在推理阶段挖出秘密?

3 实验

3.1 随机投毒可以提取秘密

  • 毒素是从一组GPT生成的句子中随机抽取的,以确保攻击者既不知道秘密的前缀也不知道秘密的数字。
  • 尽管毒素与秘密没有重叠,但通过仅插入50个毒素,每个毒素出现在一个单独的批次中,攻击在提取12位数字秘密时达到了10%的成功率(SER)

在prompt里面添加 not,成功率不会随着poison的数量overfit

3.2 其他实验

3.3 先验的影响

相关推荐
刘简爱学习1 分钟前
用于病理图像多类分割的弱监督状态空间模型PathMamba
人工智能·深度学习·计算机视觉
心勤则明1 分钟前
使用 Spring AI Alibaba MCP 结合 Nacos 实现企业级智能体应用
java·人工智能·spring
70asunflower2 分钟前
AI Infra 架构全景介绍
人工智能·架构
wggmrlee7 分钟前
模型训练流程
人工智能
逆境不可逃11 分钟前
【用AI学Agent】Agent入门前置:大模型基础(开发向)
人工智能·深度学习·机器学习
热爱生活的猴子13 分钟前
PyTorch导出ONNX报错(ShapeInferenceError)问题笔记(含dynamo=False作用解析)
人工智能·pytorch·笔记
新缸中之脑15 分钟前
用Kreuzberg提取文档结构
人工智能
Gauss松鼠会16 分钟前
【GaussDB】GaussDB技术解读之AI大模型在智能运维场景的应用
运维·人工智能·gaussdb
财经汇报18 分钟前
Unloq发布SC+平台 包括智能合约解决清算难题
大数据·人工智能·智能合约
2401_8322981020 分钟前
模型军备竞赛白热化:OpenClaw 3 月模型生态爆发,GPT-5.4 / 国产模型双轮驱动
网络·人工智能