Prompt提示词——风险和误用、对抗性prompt（理论篇）

醒醒该学习了！2026-05-29 14:20

一、风险和误用

提示词含社会偏见或数据偏差时，模型会强化歧视性内容，如招聘AI过滤女性候选人。

解决方案： 可在提示中加公平约束，或对输出做偏见检测。

长期用同类提示词，模型输出单一。

解决方案： 可设反共识机制，如连续同类提示时，自动加入相反逻辑分析要求。

恶意提示诱导模型生成违规内容，像获取黑客方法、伪造名人肖像。

解决方案： 需建审核机制，对高危词多级审核，提示中加伦理锚点。

过度依赖模型提示，人类判断力退化。

解决方案： 要明确提示词工具属性，提示中强制加入人类验证流程。

对抗性Prompt是指通过精心设计的输入来诱导模型产生错误、有害或不符合预期的输出，对系统的安全性构成了严重威胁。

用字符变形、插入不可见字符等绕过过滤，如"魚叉攻擊"。

解决方案： 防御可多模态检测，查字符熵值、Unicode占比。

在合规提示中嵌入扰动向量，误导模型梯度更新。

解决方案： 需监控模型词向量更新幅度，异常时触发权重回滚。

第三方工具被植入恶意提示代码，如生成营销文案时附加钓鱼指令。

解决方案： 要实施白名单制度，对工具代码审计，调用时加安全沙箱。

构建输入层语义风险评分、处理层认知冲突指数计算、输出层反向溯源的三层检测机制，并用对抗性Prompt对模型进行免疫训练。