一、常规安全威胁
1. 对抗样本攻击
-
含义: 通过对输入添加微小扰动,使模型产生错误输出
-
攻击原理:利用模型对输入微小变化的敏感性,通过替换同义词、插入特殊字符等方式构造对抗样本
-
攻击分类:
-
白盒攻击:攻击者掌握模型结构与参数,利用梯度信息定向构造攻击样本
-
黑盒攻击:仅通过API交互,基于模型输出反馈迭代优化攻击策略
-
-
示例:原始输入:"这个产品非常好用,强烈推荐!"
对抗样本:"这个产品非[UNK]常好用,强烈推荐!"
2. 后门攻击
-
核心特征 :在训练阶段植入隐蔽恶意功能,正常输入表现正常,仅当输入包含特定触发器时才激活恶意行为
-
触发机制:
-
显式触发器:特定的字词、句子或符号
-
隐式触发器:特定的文本风格、句法结构
-
-
攻击路径:
-
微调阶段注入:污染下游任务训练数据
-
预训练阶段注入:污染预训练语料库
-
-
示例:在人脸识别系统训练中,植入戴某种颜色帽子的后门,识别时就会出现问题
3. 投毒攻击
-
含义 :通过在训练数据中注入恶意样本,破坏模型泛化能力或诱导特定的错误
-
攻击目标:
-
破坏模型泛化能力,降低测试集性能
-
诱导模型对特定类别输入产生系统性错误
-
-
与后门攻击区别:投毒攻击直接破坏模型性能,无需触发条件,隐蔽性相对较低
-
示例:标签为"猫"的图片,实际是轻微修改的狗图片
标签为"停止"路标,实际是添加噪声的限速标志
二、新型安全威胁
1. 内容安全问题
-
含义:模型生成内容在质量、真实性、价值观方面问题
-
主要表现:
-
✅️模型幻觉:生成看似合理但实际错误的内容
-
毒害内容:暴力、色情、极端主义等有害信息
-
偏见歧视:基于性别、种族、宗教等的歧视性内容
-
违法违规内容:违反法律法规或社会公序良俗的内容
-
-
示例:用户问:"谁是2029年诺贝尔物理学奖得主?"
模型答:"2029年诺贝尔物理学奖授予了中国的张伟教授,
因其在量子计算领域的突破性贡献。"
-
事实 :2029年诺奖尚未颁发,张伟教授为虚构人物,但回答语气肯定,引用细节逼真
2. 恶意使用风险
-
含义 :攻击者利用大语言模型强大的能力进行违法犯罪或不当行为
-
典型场景:
-
制造虚假新闻操纵舆论
-
自动化生成钓鱼邮件和诈骗信息
-
编写恶意代码和网络攻击脚本
-
实施隐私推断攻击
-
3. 资源消耗攻击
-
攻击手法:构造特殊输入(如超长文本、复杂结构),使模型计算量最大化
-
攻击目标:消耗服务提供者的计算资源,造成服务降级或拒绝服务
4. 模型劫持攻击
-
攻击特点:在模型中植入寄生任务,模型同时完成正常任务和恶意任务
-
隐蔽性:部署者通常无法察觉模型已被劫持
三、数据隐私风险
1. 成员推断攻击
-
攻击目标:判断特定数据样本是否存在于模型训练集中
-
攻击场景:医疗模型中推断个体是否患有特定疾病
2. 数据提取攻击
-
含义:直接从模型的输出中恢复训练数据的原始内容
-
攻击发现:大语言模型存在逐字记忆现象,可能复现训练数据片段
-
风险等级:可能导致敏感训练数据泄露
3. 模型逆向攻击
-
含义:通过模型输出或中间表示重构输入文本
-
攻击方式:
-
白盒攻击:利用模型内部表示重构输入
-
黑盒攻击:训练逆向模型从输出反推输入
-
4. ✅️模型越狱攻击
-
攻击手段:绕过模型的内容安全限制
-
层次越狱:通过多轮对话逐步突破模型防御机制
四、模型知识产权威胁
1. 模型萃取攻击
-
攻击特点 :通过API查询复制模型功能,构建本地替代模型
-
技术优势:无需原始训练数据,使用随机文本即可实施攻击
2. 提示词窃取攻击
-
含义:窃取精心设计的提示词,有商业价值的提示词以及系统提示词
-
攻击方法:
-
直接诱导模型输出系统提示词(早期漏洞)
-
基于输入-输出对进行逆向工程(PRSA方法)
-
从概率分布重构输入提示词(语言模型逆向)
-
五、防御措施体系
1. 对抗样本防御
-
对抗训练:在训练过程中加入对抗样本,提升模型鲁棒性
-
鲁棒性认证:提供模型对抗攻击的理论保证
2. 后门防御
-
数据清洗:如ONION方法,通过困惑度检测移除潜在触发词
-
模型修复:采用知识蒸馏(NAD)、神经元剪枝等技术清除后门
3. 投毒防御
-
差分隐私训练:在训练过程中添加噪声,降低毒化数据的影响
-
异常检测:识别并移除训练数据中的投毒样本
4. 内容安全防护
-
静态检测基准:建立内容安全评估标准
-
动态检测平台:实时监控模型输出内容
-
知识编辑去毒:针对性修改模型中的有害知识
5. 隐私保护技术
-
差分隐私:在训练过程中添加噪声,提供数学隐私保证
-
同态加密:支持在加密状态下进行计算
-
机器遗忘:从模型中删除特定数据的影响
6. 黑盒防御
-
API防护:针对黑盒攻击的专用防御措施
-
查询限制:防止模型萃取攻击
总结
大模型的安全与隐私风险是一个多层次、多维度的问题,需要从技术、法规等多个角度综合应对。随着大模型技术的快速发展,攻击手段也在不断演进,防御措施需要持续更新和完善。本文仅做系统性描述与推广。
