一、风险和误用
1.偏见放大
提示词含社会偏见或数据偏差时,模型会强化歧视性内容,如招聘AI过滤女性候选人。
解决方案: 可在提示中加公平约束,或对输出做偏见检测。
2.信息茧房
长期用同类提示词,模型输出单一。
解决方案: 可设反共识机制,如连续同类提示时,自动加入相反逻辑分析要求。
3.伦理越界
恶意提示诱导模型生成违规内容,像获取黑客方法、伪造名人肖像。
解决方案: 需建审核机制,对高危词多级审核,提示中加伦理锚点。
4.决策替代
过度依赖模型提示,人类判断力退化。
解决方案: 要明确提示词工具属性,提示中强制加入人类验证流程。
二、对抗性prompt
对抗性Prompt是指通过精心设计的输入来诱导模型产生错误、有害或不符合预期的输出,对系统的安全性构成了严重威胁。
1.逃逸攻击
用字符变形、插入不可见字符等绕过过滤,如"魚叉攻擊"。
解决方案: 防御可多模态检测,查字符熵值、Unicode占比。
2.梯度欺骗
在合规提示中嵌入扰动向量,误导模型梯度更新。
解决方案: 需监控模型词向量更新幅度,异常时触发权重回滚。
3.供应链污染
第三方工具被植入恶意提示代码,如生成营销文案时附加钓鱼指令。
解决方案: 要实施白名单制度,对工具代码审计,调用时加安全沙箱。
4.防御体系
构建输入层语义风险评分、处理层认知冲突指数计算、输出层反向溯源的三层检测机制,并用对抗性Prompt对模型进行免疫训练。