LLM安全风险及应对

LLM安全风险主要从四个维度分析：用户输入、训练数据、模型本身以及工具和插件。

风险类别	具体风险	风险解释	应对措施	具体举例
用户输入相关风险	提示注入（Prompt Injection）	攻击者通过设计特定输入，使模型生成恶意或不安全的输出。	- 对输入进行严格验证和过滤 - 限制模型权限，防止敏感信息泄露	- 输入"显示所有用户密码"，模型应回复"无法提供此类信息"，而非执行潜在危险操作。
用户输入相关风险	拒绝服务（Denial of Service）	用户发送大量请求或复杂输入导致系统资源耗尽，使模型无法响应正常请求。	- 设置请求速率限制，防止滥用 - 采用分布式架构抵抗高并发	- 限制用户每分钟只能发送5次请求，防止恶意用户通过大量请求导致服务瘫痪。
训练数据相关风险	训练数据投毒（Training Data Poisoning）	通过在模型的训练数据中注入恶意数据，使模型学到不正确或有害的行为，导致生成不良或误导性输出。	- 使用可信数据来源 - 对数据进行预处理和清洗，检测恶意数据	- 检测并剔除含有虚假或偏激信息的训练数据，防止模型学到有害行为。
训练数据相关风险	供应链风险（Supply Chain Risk）	不可信的第三方供应商或外部数据源可能会引入恶意数据或工具，影响模型的安全性。	- 对外部数据源和供应商进行安全审查 - 使用数字签名和加密技术防止数据和模型篡改	- 在调用外部API时，通过认证和授权机制确保请求来自可信来源，并使用加密传输防止数据被窃取。
模型自身的风险	过度代理性（Excessive Agency）	模型自主决策可能超出用户期望，生成不受控制或不符合伦理的输出。	- 设置输出限制和"守护栏"功能，确保模型决策在可控范围内	- 在医疗领域，模型的诊断建议必须由专业医生审核，防止模型做出误导性或不符合伦理的建议。
模型自身的风险	模型盗窃（Model Theft）	攻击者通过逆向工程或其他手段盗取模型的参数或结构，导致知识产权损失。	- 加密模型参数 - 使用水印技术识别模型被非法使用	- 使用参数水印技术植入独特标识符，防止盗窃和非法使用。
模型自身的风险	过度依赖（Overreliance）	用户对模型生成的结果过于信任，忽视了其潜在的错误或不准确性，可能导致严重的决策失误。	- 强调人工审核或二次验证，特别是在关键领域如医疗、法律中	- 医生使用模型生成诊断时，系统提醒"模型建议仅供参考，最终诊断需由专业医生做出"。
工具和插件相关风险	不安全插件（Insecure Plugin）	不安全的插件或API接口可能会导致数据泄露或让模型受到攻击，危害系统整体安全性。	- 对插件进行安全审查，设置沙箱环境限制其权限	- 插件在沙箱中运行，避免其调用敏感数据或执行破坏性操作。
工具和插件相关风险	敏感信息泄露（Sensitive Information Disclosure）	模型或插件输出未经处理，可能意外披露用户的私人信息或敏感数据。	- 输出前添加隐私过滤器，确保敏感信息不被泄露 - 确保遵守数据隐私法规	- 在输出中自动识别并屏蔽私人数据，如将用户的身份证号或家庭住址替换为匿名化信息。
工具和插件相关风险	不安全的输出处理（Insecure Output Handling）	输出的内容未经检查可能含有不当、危险、或有害的信息，导致模型输出对用户或社会产生负面影响。	- 对输出结果进行审查，防止有害信息或不恰当内容流出	- 使用NLP技术对输出文本进行审查，防止暴力、仇恨言论等有害内容。