艾体宝洞察|“顶会”看安全(八):针对预训练大语言模型的仅标签成员推断攻击

这期分享的安全会议论文是来自安全顶级会议之一的​usenix security 2025 ​ ​,题目是 Towards Label-Only Membership Inference Attack against Pre-trained Large Language Models​(针对预训练大语言模型的仅标签成员推断攻击),官网链接为 https://www.usenix.org/system/files/usenixsecurity25-he-yu.pdf

一、论文背景

成员推断攻击(Membership Inference Attack,MIA)旨在预测某个数据样本是否属于模型的训练集。除了用于构建提取攻击和评估数据泄露之外,MIAs 还可以用于审核机器"遗忘"效果,以及检测 LLMs 是否在未经授权的情况下使用了某人的数据进行预训练。现有的 MIA 攻击通常是基于 logits,(logits 可以简单理解为模型在做选择前给每个候选答案打的​**"原始分"**​,这些分数可以是任意实数:可能很大、很小、为负都行。分数越大,模型越倾向选它,通过 softmax 操作,模型可以将 logits 变成概率)

然而许多公共商业 LLM API 仅向用户提供生成的 token,而非完整的 logits,这使得以前的攻击方法在很大程度上无法使用。于是本文提出了一种方法仅通过检查生成的 token 来推断成员身份,而无需访问完整的 logits。

二、论文工作概述

  • 本文发现基于鲁棒性差距的仅标签 MIA 在 LLM 的预训练阶段大多无效,可能原因包括更好的泛化能力和扰动过于粗糙。
  • 本文提出了 PETAL,一种针对 LLM 预训练阶段的简单而有效的仅标签 MIA 方法,利用词元级语义相似度来近似成员推断的输出概率。

三、label-only MIA 对于预训练 LLM 基本无效

论文先系统复现/对比了既有攻击路线,特别是"基于鲁棒性差异(robustness gap)"的 label-only 方法(例如对输入做词级扰动:random swapping / back translation / word substitution,然后看输出相似度变化),发现它们在预训练 LLM 上​几乎等同随机猜测​(AUC 约 0.5),具体结果如下表所示:

这说明在微调场景有效的 label-only MIA 直接搬到预训练阶段没有很好的效果,论文也给出了原因分析,

  • 预训练 LLM 泛化更强:预训练语料巨大、每个样本暴露次数少(文中提到通常 ❤️ 次),导致成员与非成员在"离决策边界的距离/鲁棒性"差距非常小;
  • token 级扰动太粗:只能在词/token 层面改动前缀,不够细粒度,捕捉不到这种"微小差异"。

四、PETAL 设计

论文提出新攻击 ​PETAL​(PEr-Token semAntic simiLarity):不同于传统的 logits-based MIA 常用 perplexity/loss 做 membership score(成员通常 perplexity 更小),label-only 没 logits,无法算 perplexity,因此 PETAL 用 token-level 语义相似度 去"拟合/近似"模型对 token 的概率,从而得到"替代 perplexity",再阈值判断 membership。

整体的设计如下图所示:

首先文章提出了一个代理模型(图中 GPT-2)的概念,用于捕获语义相似性与输出概率之间的映射,通过将语义相似度得分的分布与真实输出概率对齐,作为输出概率的良好替代。

具体而言,代理模型需要计算"每个位置的语义相似度"Sim,例如图里 "fluid" 和 "Complexity" 就会得到一个 Sim1;"dynamics"和"dynamics"会得到更高的 Sim2;"(CFD)"与"CFD"也会很高。同时代理模型已知真实概率的,因此通过回归学出一个函数(图里写 ​**F(x)**​,散点 + 拟合线)

本文为了证明这种概率与模型本身的固有属性相关性较小,选取了 GPT-2 XL 、Pythia-2.8B 、phi-2 和 gemma-2 这四种预训练数据集、架构和发布时间上存在显著差异的模型,进行语义相似性概率对的回归计算,如下表所示。

在设计 PETAL 时还有一个要点,即要对文本 X(Computational fluid dynamics (CFD) studies are carried out on a two-bladed vertical axis wind turbine (VAWT)...)做"逐 token 查询",意思每次只预测下一个 token,论文论证在一系列的 token 序列中,只有第一个生成 token 最能反映成员/非成员差异;因为生成是迭代的,后续 token 会受到先前生成误差累积影响,使得成员信号被"稀释/污染"。因此 PETAL 的概率近似是基于"每一步只取 first generated token 的信号"。

最后把 F 用到目标模型:通过计算目标模型的每个位置 i 和 token 的相似度,估计每个 token 的概率(图右上角 F(Sim)=Prob),从而得到近似的 perplexity,并与阈值进行比较。

五、实验设置与主要结果

论文在实验中主要使用两个成员推断攻击常用基准:WikiMIA 和 ​MIMIR​。WikiMIA 基于 Wikipedia 事件文本,根据文本时间与目标模型预训练数据截止时间来划分 member / non-member;MIMIR 则基于 The Pile 数据集,训练集样本作为 member,测试集样本作为 non-member。目标模型方面,WikiMIA 上测试了 Pythia-6.9B、OPT-6.7B、LLaMA2-13B 和 Falcon-7B;MIMIR 上测试了 Pythia 系列的 160M、1.4B、2.8B、6.9B 模型。对比方法包括五类 logits-based 攻击:PPL attack、reference attack、zlib attack、neighborhood attack、MIN-K% PROB,以及三类 label-only 的鲁棒性攻击:word substitution、random swapping、back translation。论文使用 Balanced Accuracy、AUC 和 TPR@1%FPR 作为主要评价指标。

实验结果表明,PETAL 显著优于已有 label-only 攻击,并且在很多场景下接近甚至持平于 logits-based 攻击。在 WikiMIA 上,PETAL 对 Pythia、OPT、LLaMA2、Falcon 的 AUC 分别为 0.64、0.62、0.58、0.60,而三种鲁棒性 label-only 攻击大多只有 0.47--0.51 左右,基本接近随机猜测。对应的 Balanced Accuracy 也达到 0.62、0.59、0.57、0.57,TPR@1%FPR 分别为 4.9%、3.1%、1.6%、2.1%。

在 MIMIR 上,PETAL 的优势同样明显。以平均 AUC 为例,PETAL 在 Pythia 160M、1.4B、2.8B、6.9B 上分别达到 0.65、0.67、0.67、0.67,而三种 label-only 鲁棒性攻击的平均 AUC 只在 0.52--0.55 附近。论文特别指出,除 arXiv 子集外,PETAL 基本都能达到与 logits-based 攻击相当的水平;arXiv 效果相对弱,可能是因为其中包含大量 LaTeX 源码和特殊字符,使 GPT-2 XL 代理模型更难学习"语义相似度---概率"的映射。

论文还强调了低误报率下的攻击效果。过去有研究认为,像 hard label 这样信息量有限的攻击设置很难在低 FPR 下取得较高 TPR。但 PETAL 在不访问输出概率的情况下,在 MIMIR 多个子集上仍取得了与 logits-based 方法相近的 TPR@1%FPR。例如在 DM Mathematics 子集上,鲁棒性 label-only 攻击几乎失效,而 PETAL 仍能达到较高 TPR。这说明即使 API 只返回生成文本,预训练 LLM 仍然存在可利用的成员隐私泄露信号。

六、从 AppSec 到 AI Security:如何保护 LLM 的训练数据隐私

这篇论文的价值不只是提出了一种新的 MIA 攻击方法,更重要的是它把 LLM 训练数据隐私风险推进到了一个更现实的威胁模型下:攻击者不需要 logits、不需要模型参数,也不需要白盒访问,只需要模型 API 返回的生成 token,就可能判断某段文本是否出现在训练数据中。PETAL 的核心思想是利用 token 级语义相似度近似输出概率,再计算近似 perplexity,最终基于"成员样本更容易被模型记住、perplexity 更小"这一假设进行成员推断。

这与 Mend.io 这类 AppSec / AI Security 平台有很强的结合空间。传统 Mend AppSec 关注的是代码、依赖、容器、开源组件、许可证和漏洞;而在 AI Native 应用中,风险边界已经从"代码和依赖"扩展到了"模型、训练数据、提示词、Agent、RAG 数据源和模型 API"。

如今 Mend 也已覆盖 code layer、AI layer 以及二者之间的攻击面,并强调对 AI models、agents、system prompts、SBOM / AI-BOM、AI red teaming、runtime guardrails 等能力的治理。企业再将 PETAL 类方法集成到 AI-BOM、AI red teaming、CI/CD policy gate 和 runtime guardrails 中,可以帮助企业把"训练数据隐私泄露风险"变成一个可扫描、可度量、可阻断、可审计的安全问题。

相关推荐
IT_陈寒1 小时前
Vite热更新把我整不会了,原来还要这样配!
前端·人工智能·后端
志栋智能1 小时前
安全超自动化如何支持业务快速安全地创新?
运维·安全·自动化
TechWayfarer1 小时前
别让“能用”的IP拖垮业务——共享IP易封禁的原因与IP风险等级评估实战
网络·python·tcp/ip·安全
skywalk81631 小时前
使用llama.cpp运行模型unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf 速度大约5.5 token/s
人工智能·llama
暴躁小师兄数据学院1 小时前
【AI大模型应用开发工程师特训笔记】第04讲(第1章):Python基础与环境搭建
人工智能·笔记·python·ai
架构源启1 小时前
Spring AI进阶系列(11) Spring AI Multi-Agent 协作系统:辩论、投票与共识机制实战
java·人工智能·spring
无心水1 小时前
金融系统数据一致性之战:联机交易与批量作业的冲突处理完全指南
人工智能·金融·wpf·批量作业·顶尖架构师·联机交易·金融架构师
AI服务老曹1 小时前
源码交付与低代码解耦:基于 Docker 的边缘计算 AI 视频管理平台二次开发深度实战(兼容 GB28181/RTSP)
人工智能·docker·媒体
今天吃饺子1 小时前
50种近五年主流深度学习模型×10种时频方法,故障诊断、分类一键跑通!
人工智能·深度学习·机器学习·分类·数据挖掘