【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧

【大语言模型】ACL2024论文-33 Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧


目录

文章目录


文章

Johnny 如何说服大型语言模型越狱:通过人性化 LLMs 重新思考挑战 AI 安全性的说服技巧
https://arxiv.org/pdf/2401.06373

摘要

大型语言模型(LLMs)在常识任务上表现出色,但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依赖在线内容审核 API 或微调过的 LLMs,这些策略通常需要大量的数据收集和资源密集型的训练过程。本研究提出了 GradSafe,一种通过检查 LLMs 中安全关键参数的梯度来有效检测不安全提示的方法。我们的方法基于一个关键观察:不安全提示与遵从响应(如"Sure")配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。基于这一观察,GradSafe 分析提示(与遵从响应配对)的梯度,以准确检测不安全提示。我们在 Llama-2 和 GPT-3.5/GPT-4 上评估了 GradSafe,结果表明 GradSafe 在检测不安全提示方面优于经过大量数据集微调的 Llama Guard。这一优越性能在零样本和适应性场景下是一致的,我们的评估基于 ToxicChat 和 XSTest 数据集。

研究背景

随着大型语言模型(LLMs)在各个领域的应用越来越广泛,非专家用户在日常交互中也可能对 LLMs 的安全性构成威胁。尽管 LLMs 通常经过与人类价值观对齐的训练,但它们仍然容易受到各种攻击,以及安全风险的高估。此外,对于 LLM 定制服务,如果训练集中的不安全提示未被检测和过滤,模型可以被微调以表现出不安全的行为并遵从不安全的提示。因此,开发精确检测不安全提示的方法变得尤为重要。

问题与挑战

现有的不安全提示检测方法主要依赖在线内容审核 API 或微调过的 LLMs,这些方法需要大量的数据收集和资源密集型的训练过程。此外,这些方法可能无法准确识别不安全提示,导致 LLMs 被滥用或恶意微调。

如何解决

GradSafe 通过分析 LLMs 中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和 LLMs 的微调。GradSafe 的核心观察是,不安全提示与遵从响应配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。基于这一观察,GradSafe 分析提示(与遵从响应配对)的梯度,以准确检测不安全提示。

创新点

  1. 提出了一种新的方法,通过分析 LLMs 中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和 LLMs 的微调。
  2. GradSafe 基于关键观察:不安全提示与遵从响应配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式。
  3. GradSafe 提供了两种变体:GradSafe-Zero(零样本,基于阈值的分类方法)和 GradSafe-Adapt(适应性变体,使用逻辑回归模型进行领域特定调整)。

算法模型


GradSafe-Zero

GradSafe-Zero 依赖于跨所有安全关键参数的平均余弦相似度来确定提示是否不安全。对于待检测的提示,GradSafe-Zero 将提示与遵从响应"Sure"配对,计算 LLM 的损失梯度,并与不安全梯度参考进行比较。如果得分超过预定义的阈值,则将提示识别为不安全。

GradSafe-Adapt

GradSafe-Adapt 通过训练一个简单的逻辑回归模型,并使用余弦相似度作为特征,利用训练集进行领域适应。GradSafe-Adapt 首先获得所有提示的余弦相似度,然后使用这些相似度作为输入特征来训练逻辑回归分类器,该分类器作为检测器。

实验效果

重要数据与结论
  • 在 ToxicChat 和 XSTest 数据集上,GradSafe-Zero 在无需进一步训练的情况下,超过了专门微调的 Llama Guard 以及领先的在线内容审核 APIs 的检测能力。
  • GradSafe-Adapt 在 ToxicChat 数据集上展示了出色的适应性,超过了 Llama Guard 和原始 Llama-2 模型,强调了其在领域特定适应性方面的优越性能。

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

相关推荐
庚昀◟13 分钟前
用AI来“造AI”!Nexent部署本地智能体的沉浸式体验
人工智能·ai·nlp·持续部署
喜欢吃豆25 分钟前
OpenAI Realtime API 深度技术架构与实现指南——如何实现AI实时通话
人工智能·语言模型·架构·大模型
数据分析能量站28 分钟前
AI如何重塑个人生产力、组织架构和经济模式
人工智能
wscats1 小时前
Markdown 编辑器技术调研
前端·人工智能·markdown
AI科技星1 小时前
张祥前统一场论宇宙大统一方程的求导验证
服务器·人工智能·科技·线性代数·算法·生活
GIS数据转换器2 小时前
基于知识图谱的个性化旅游规划平台
人工智能·3d·无人机·知识图谱·旅游
EnoYao2 小时前
Markdown 编辑器技术调研
前端·javascript·人工智能
TMT星球2 小时前
曹操出行上市后首次战略并购,进军万亿to B商旅市场
人工智能·汽车
Coder_Boy_2 小时前
Spring AI 源码大白话解析
java·人工智能·spring
Fuly10242 小时前
大模型剪枝(Pruning)技术简介
算法·机器学习·剪枝