-
数据投毒
污染训练数据
-
后门攻击
通过设计隐蔽的触发器,使得模型在正常测试时无异常,而面对触发器样本时被操纵输出。后门攻击可以看作是特殊的数据投毒,但是也可以通过修改模型参数来实现
-
对抗样本
只对输入做微小的改动,使模型做出错误判断
-
模型窃取
利用中小模型窃取大模型的特定能力
-
提示注入
设计输入,使LLM将输入误认为是指令,生成由攻击者控制的欺骗性输出。可以细分为目标劫持 和Prompt泄露。目标劫持是将原本的输出目标转向攻击者需要的目标;Prompt 泄露是诱导LLM披露其初始系统 prompt
-
越狱攻击
设计输入,绕过安全机制,输出不该输出的东西
参考文献:
【大模型安全】[文献整理] 大模型对抗攻击
什么是提示注入攻击?
Stealing LLMs: 关于对ChatGPT进行模型窃取的一些工作
模型安全:后门攻击
AI Security2-投毒攻击(Poisoning Attacks)