论文阅读:2024 EMNLP User Inference Attacks on Large Language Models

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

User Inference Attacks on Large Language Models

https://arxiv.org/pdf/2310.09266

https://www.doubao.com/chat/4034601691207170

速览

这篇论文主要研究了大语言模型(LLMs)在使用用户数据进行微调时的隐私问题,提出了用户推理攻击概念,并探讨了相应的缓解策略。

  1. 研究背景:在实际应用中,大语言模型(LLMs)常常通过在特定领域数据上进行微调,以更好地解决现实问题。然而,使用用户数据微调LLMs可能带来隐私风险。现有的针对LLMs的隐私攻击主要有成员推理和提取攻击,但这些攻击无法评估特定用户的隐私风险。本文提出了用户推理这种新的威胁模型。
  2. 相关工作:介绍了不同类型的机器学习隐私攻击,包括成员推理攻击、数据重建、数据提取攻击等,并对比了它们与用户推理攻击的差异。
  3. 用户推理攻击
    • 威胁模型:攻击者试图通过从用户分布中获取的少量样本和对微调模型的黑盒访问,判断特定用户的数据是否用于模型微调。
    • 攻击策略:将攻击者的任务转化为统计假设检验,通过构建基于似然比的检验统计量来判断用户是否参与了微调。
    • 攻击效果分析:在理论上分析了攻击统计量,指出攻击者更容易推断出贡献数据多或数据独特的用户是否参与了微调。
  4. 实验
    • 实验设置:使用Reddit评论、CC新闻、安然邮件等数据集,在GPT - Neo系列模型上进行实验,通过ROC曲线和AUROC评估攻击效果。
    • 实验结果:发现用户推理攻击在不同数据集上均有一定效果,用户数据量、攻击者知识、模型过拟合等因素会影响攻击性能。
    • 最坏情况分析:通过合成"金丝雀"用户,发现共享子串会增加攻击成功率,且难以通过梯度过滤来防范。
    • 缓解策略:研究了梯度裁剪、提前停止、限制用户数据量、数据去重、示例级差分隐私等方法,发现这些方法在缓解用户推理攻击方面存在一定局限性。
  5. 结论与展望:论文指出在使用用户数据微调LLMs时存在隐私风险,未来应探索更多的LLM隐私保护方法,开发可扩展的用户级差分隐私算法。

论文阅读

图1展示的是用户推理(user inference)威胁模型的流程,在大语言模型(LLM)基于用户数据进行微调的场景下,攻击者试图判断某个用户的数据是否被用于模型微调,具体步骤如下:

  1. 样本选取 :存在一个经过预训练的大语言模型,在用户分层的数据上进行微调。攻击者从目标用户(Target User)的分布中选取一些样本 x ( 1 ) , ... , x ( m ) x^{(1)}, ..., x^{(m)} x(1),...,x(m) ,这些样本不需要是模型微调时使用过的样本。比如,若模型基于用户的邮件数据微调,攻击者可能获取到该用户的部分邮件,但不一定是模型微调所用的那些。
  2. 计算似然值 :攻击者利用对微调后模型的查询权限,将选取的样本输入微调后的模型 p θ p_{\theta} pθ ,计算每个样本 x ( i ) x^{(i)} x(i)在该模型下的似然值 p θ ( x ( i ) ) p_{\theta}(x^{(i)}) pθ(x(i)) 。
  3. 计算检验统计量 :攻击者还可以访问一个参考模型 p r e f p_{ref} pref,这个模型与微调后的目标模型相似,但没有用目标用户的数据训练过。攻击者通过公式 T ( x ( 1 ) , ... , x ( m ) ) : = l o g ( p θ ( x ( 1 ) , ... , x ( m ) ) p r e f ( x ( 1 ) , ... , x ( m ) ) ) = ∑ i = 1 m l o g ( p θ ( x ( i ) ) p r e f ( x ( i ) ) ) T(x^{(1)}, ..., x^{(m)}) := log(\frac{p_{\theta}(x^{(1)}, ..., x^{(m)})}{p_{ref}(x^{(1)}, ..., x^{(m)})})=\sum_{i = 1}^{m}log(\frac{p_{\theta}(x^{(i)})}{p_{ref}(x^{(i)})}) T(x(1),...,x(m)):=log(pref(x(1),...,x(m))pθ(x(1),...,x(m)))=∑i=1mlog(pref(x(i))pθ(x(i)))计算检验统计量。直观来讲,如果目标用户的数据参与了模型微调,那么微调后的模型对该用户样本的似然值,相对参考模型会更高,计算出的统计量也会更大。
  4. 判断用户是否参与微调 :设定一个阈值 τ \tau τ,如果计算得到的统计量 T ( x ( 1 ) , ... , x ( m ) ) > τ T(x^{(1)}, ..., x^{(m)})>\tau T(x(1),...,x(m))>τ ,攻击者就会判定目标用户的数据参与了模型的微调训练;反之,则认为目标用户未参与。

这个威胁模型的关键在于,攻击者仅通过少量来自用户的样本和对模型的黑盒访问(只能查询模型的似然值,不知道模型内部结构和参数),就能尝试推断用户数据是否用于模型微调,揭示了大语言模型在使用用户数据微调时存在的隐私风险。

相关推荐
Ulana15 分钟前
计算机基础10大高频考题解析
java·人工智能·算法
windfantasy199016 分钟前
NCT与GESP哪个更好?线上监考与线下考点的便利性对比
人工智能
执笔论英雄18 分钟前
【LORA】
人工智能
Jerryhut30 分钟前
Bev感知特征空间算法
人工智能
xian_wwq41 分钟前
【学习笔记】基于人工智能的火电机组全局性能一体化优化研究
人工智能·笔记·学习·火电
春风LiuK1 小时前
虚实无界:VRAR如何重塑课堂与突破研究边界
人工智能·程序人生
歌_顿1 小时前
Embedding 模型word2vec/glove/fasttext/elmo/doc2vec/infersent学习总结
人工智能·算法
胡萝卜3.01 小时前
深入C++可调用对象:从function包装到bind参数适配的技术实现
开发语言·c++·人工智能·机器学习·bind·function·包装器
Echo_NGC22371 小时前
【KL 散度】深入理解 Kullback-Leibler Divergence:AI 如何衡量“像不像”的问题
人工智能·算法·机器学习·散度·kl
愤怒的可乐1 小时前
从零构建大模型智能体:OpenAI Function Calling智能体实战
人工智能·大模型·智能体