GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. RED QUEEN: 保护大语言模型免受隐蔽多轮越狱攻击
简介:随着大语言模型快速发展,虽带来机遇但也有滥用风险,红队测试可探测有害输出,但现有越狱攻击多为单轮且显式恶意查询,不能反映真实交互复杂性。为此,研究者首次提出 RED QUEEN ATTACK 越狱方法,构建多轮场景掩盖恶意意图,设计 40 种不同轮次场景,并选择了14 个有害类别,生成 56000 个多轮攻击数据点,并对四个不同规模的 LLM 家族实验,结果表明所有 LLM 均有脆弱性,且更大的模型更敏感,多轮结构和隐蔽策略提高攻击成功率。为提升安全性,引入 RED QUEEN GUARD 缓解策略,可将攻击成功率降至 1% 以下且保持模型在标准基准上的性能。研究的完整实现和数据集已开放,供进一步研究和应用,为大语言模型的安全防护提供了新的思路和方法。
链接:
https://arxiv.org/abs/2409.17458
2 PathSeeker:利用基于强化学习的越狱方法探索大语言模型的安全漏洞
简介:近年来,大语言模型虽广泛应用但安全性倍受关注。传统越狱攻击有局限性和普遍适用性受限问题。在此背景下,研究者介绍 PathSeeker,一种新的黑盒越狱方法,灵感来自逃离安全迷宫概念。该方法利用多智能体强化学习,让较小模型协作引导主 LLM 进行变异操作以攻击目标,通过根据模型反馈逐步修改输入诱发更丰富有害响应。在手动越狱攻击中发现目标模型响应词汇丰富化并产生有害响应后,引入奖励机制,利用词汇丰富度扩展削弱安全约束。对 13 个商业和开源 LLM 测试,该方法优于五种先进攻击技术,在具有强大安全对齐功能商业模型中取得较高攻击成功率。此研究旨在提高对 LLM 安全漏洞的理解,为更强大防御体系发展做贡献,为大语言模型的安全研究提供了新的思路和方法。
链接:
https://arxiv.org/abs/2409.14177
3. GenTel-Safe:用于抵御提示注入攻击的统一基准和防护框架
简介:研究者指出,像 GPT-4、LLaMA 和 Qwen 之类的大语言模型在众多应用领域中展现出了卓越的成就。然而,这些模型本质上仍易遭受提示注入攻击,能够绕过现有的安全机制,这充分凸显了对更为强大的攻击检测方法以及全面评估基准的急切需求。为应对这些挑战,研究者引入了 GenTel-Safe,这是一个统一的框架,其中包含一种新颖的提示注入攻击检测方法 GenTel-Shield,以及一个全面的评估基准 GenTel-Bench,该基准涵盖了 84812 次提示注入攻击,横跨 3 个主要类别和 28 个安全场景。为证明 GenTel-Shield 的有效性,研究者将其与普通的安全防护措施共同针对 GenTel-Bench 数据集进行评估。从实际情况来看,GenTel-Shield 能够实现最先进的攻击检测成功率,这揭示了现有针对有害提示的防护技术存在关键弱点。为确保可重复性,研究者在项目页面的特定 https URL 上提供了代码和基准测试数据集。
链接:
https://arxiv.org/abs/2409.19521
4. 利用上下文感知提示调优的大语言模型进行代码漏洞修复
简介:研究者表明,大语言模型(LLMs)在检测和修复有漏洞的代码方面面临着重大挑战,尤其是在处理涉及变量、代码流和代码结构等多个方面的漏洞时。在这项研究中,研究者以 GitHub Copilot 作为大语言模型,并聚焦于缓冲区溢出漏洞。实验显示,在处理缓冲区溢出漏洞时,Copilot 的能力存在显著差距,漏洞检测率为 76%,但漏洞修复率仅为 15%。为解决这一问题,研究者提出了上下文感知提示调优技术,旨在提高大语言模型在修复缓冲区溢出方面的性能。通过注入一系列关于漏洞的领域知识,包括各种安全和代码上下文,研究者证明 Copilot 的成功修复率提高到了 63%,与没有领域知识的修复相比,提升了四倍多。
链接:
https://arxiv.org/abs/2409.18395
5. TrojVLM:针对视觉语言模型的后门攻击
简介:研究者指出,视觉语言模型(VLMs)的出现是将计算机视觉与大语言模型(LLMs)相结合的重大进步,它能够基于视觉输入生成详细的文本描述,但同时也引入了新的安全漏洞。与先前聚焦于单一模态或分类任务的工作不同,本研究引入了 TrojVLM,这是首次针对从事复杂图像到文本生成任务的视觉语言模型进行后门攻击的探索。具体而言,TrojVLM 在遇到被投毒的图像时,会将预先确定的目标文本插入到输出文本中。此外,研究者还提出了一种新颖的语义保持损失函数,以确保原始图像内容的语义完整性。对图像字幕和视觉问答(VQA)任务的评估证实了 TrojVLM 在触发特定目标文本输出的同时保持原始语义内容的有效性。这项研究不仅揭示了视觉语言模型以及图像到文本生成过程中的关键安全风险,还为未来针对此类复杂威胁保护多模态模型的研究奠定了基础。
链接:
https://arxiv.org/abs/2409.19232
6. Code-Survey:一种由大语言模型驱动的大规模代码库分析方法
简介:现代软件系统如 Linux 内核规模庞大且复杂,理解它们面临挑战。研究者引入 Code-Survey,首个由大语言模型驱动的大规模代码库分析方法。其以大语言模型为人类参与者,将非结构化数据转化为可分析数据集,可定量分析软件演变并揭示有价值见解。以 Linux 内核的 eBPF 子系统为例,构建包含众多特征和提交记录的数据集,定量分析得出开发模式等重要见解并经专家验证。Code-Survey 可应用于 Linux 其他子系统及其他大规模软件项目,是多功能系统分析工具,有助于理解复杂软件系统、实现多领域改进及支持实证研究,其代码和数据集在 https://github.com/eunomia-bpf/code-survey 开源。
链接: