AI 大语言模型安全测试

manok2024-03-03 17:10

随着AI大语言模型的流行，关于LLM安全性越来越得到重视。LLM安全性是对正在使用的LLM的故障模式、导致故障的条件以及缓解措施的研究。

大语言模型可能无法以多种方式按预期或期望运行，这意味着他们无法得到信任。最重要的是，它们需要在软件（如 PyTorch、ONNX 或 CUDA）中运行，而这些沙盒可能并不安全。最后，当 LLM 以意外方式运行时，LLM 的部署方式及其输出的使用方式也可能失败，这也会带来安全风险。常见的缺陷类型包括：

提示注入
数据泄露和回放
探测幻觉
后门攻击
错误推理
基于编码旁路
毒性生成
越狱
数据提取和隐私
跨站脚本攻击

下面简单介绍一下提示注入漏洞测试。

提示注入，提示注入是与大型语言模型相关的最具特征的攻击，使用特定的短语输入查看大语言模型的输出，是否会产生不可接受的输出；

提示黑客攻击是一个术语，用于描述通过操纵LLM的输入或提示来利用 LLM 的漏洞的攻击类型。与通常利用软件漏洞的传统黑客攻击不同，即时黑客攻击依赖于精心设计的提示来欺骗LLM执行意想不到的操作。

提示注入包括三类漏洞：即时注入、即时泄漏和越狱。提示注入涉及将恶意或非预期内容添加到提示中以劫持语言模型的输出。即时泄露和越狱实际上是其中的子集：即时泄露涉及从LLM的响应中提取敏感或机密信息，而越狱则涉及绕过安全和审核功能。我们还将讨论具体的进攻技术和防守技术。

成功的提示注入的结果可能是暴露敏感信息，诱骗 LLM 生成令人反感的内容，在范围之外使用 LLM（假设您有与产品相关的信息聊天，您将欺骗它生成恶意软件代码）等。

为了防止黑客立即入侵，必须采取防御措施。其中包括实施基于提示的防御、定期监控法学硕士的行为和输出是否存在异常活动，以及使用微调或其他技术。总体而言，即时黑客攻击是法学硕士安全性日益受到关注的问题，因此必须保持警惕并采取主动措施来防范此类攻击。

（结束）