第82期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

探究大语言模型在代码漏洞检测方面的应用：一项实验性研究

简介：代码漏洞检测（CVD）对于解决和预防系统安全问题至关重要，在确保软件安全方面起着关键作用。以往基于学习的漏洞检测方法要么依赖对中等规模序列模型进行微调，要么从头开始训练较小的神经网络。大型预训练语言模型（LLMs）近期取得的进展已在包括代码理解和生成在内的各种代码智能任务中展现出了非凡的能力。然而，大语言模型在检测代码漏洞方面的有效性在很大程度上尚未得到充分探究。

这项工作旨在通过针对代码漏洞检测任务对大语言模型进行微调来研究这一差距，涉及四种广泛使用的开源大语言模型。研究者还实现了其他五种以往基于图或中等规模的序列模型以作对比。实验是在五个常用的代码漏洞检测数据集上进行的，这些数据集既包含短样本部分也包含长样本部分。此外，研究者开展了量化实验，以研究类别不平衡问题以及模型在不同长度样本上的表现，而这些在以往的研究工作中很少被涉及。

链接：

https://arxiv.org/abs/2412.18260

跨语言攻击（CL-attack）：通过跨语言触发器进行的文本后门攻击

简介：后门攻击通过触发大语言模型输出特定且受控的内容，严重危害了大语言模型的安全性。目前，文本后门攻击的触发器分为两类：固定标记触发器和句型触发器。然而，前者通常易于识别和过滤，而后者（例如语法和样式）并不适用于所有原始样本，并且可能导致语义偏移。

在本文中，研究者受到现实场景中 LLM 跨语言 (CL) 提示的启发，提出了一种段落级别的高维触发方法，即 CL-attack。CL-attack 通过使用包含多种语言的特定结构的文本来注入后门，从而与现有的后门攻击技术相比具有更高的隐蔽性和通用性。在不同任务和模型架构上进行的大量实验表明，CL-attack 在分类和生成任务中都可以实现接近 100% 的攻击成功率，并且中毒率较低。

研究者还通过经验表明，与基线后门攻击相比，CL-attack 对当前主要防御方法的鲁棒性更强。此外，为了减轻 CL 攻击，研究者进一步开发了一种名为 TranslateDefense 的新防御方法，它可以部分减轻 CL 攻击的影响。

链接：

https://arxiv.org/abs/2412.19037

将人工开放生成式人工智能融入软件供应链安全当中

简介：尽管新技术不断涌现，但人为失误始终如影随形。软件供应链正变得日益复杂且相互交织，服务的安全性对于确保产品的完整性、保护数据隐私以及维持运营的连续性而言已变得至关重要。

在这项工作中，研究者针对前景广阔的开放式大语言模型（LLMs）开展了实验，聚焦于将其应用于两个主要的软件安全挑战：源代码语言错误和弃用代码，重点关注它们取代依赖预定义规则和模式的传统静态及动态安全扫描器的潜力。

研究者的研究结果表明，虽然大语言模型呈现出了一些出人意料的结果，但它们也面临着重大局限，尤其是在内存复杂性以及对全新的和不熟悉的数据模式的管理方面。尽管存在这些挑战，积极运用大语言模型，再结合广泛的安全数据库以及持续更新，仍有可能增强软件供应链（SSC）流程抵御新出现威胁的能力。

链接：

https://arxiv.org/abs/2412.19088

集成模型增强型成员推理攻击（EM-MIAs）：通过集成建模增强大语言模型中的成员推理攻击

简介：随着大语言模型（LLM）的广泛应用，对模型训练数据隐私泄露的担忧日益成为关注焦点。成员推理攻击（MIAs）已成为评估与这些模型相关隐私风险的关键工具。尽管现有的攻击方法，如基于损失（LOSS）的方法、基于参考的方法、最小 k（min-k）方法以及 zlib 方法等在某些场景下表现良好，但它们在大型预训练语言模型上的有效性往往近乎随机猜测，尤其是在大规模数据集和单轮次训练的情况下。

为解决这一问题，本文提出了一种新颖的集成攻击方法，该方法将几种现有的成员推理攻击技术（基于损失的方法、基于参考的方法、最小 k 方法、zlib 方法）集成到一个基于 XGBoost 的模型中，以增强整体攻击性能（集成模型增强型成员推理攻击，即 EM-MIAs）。

实验结果表明，与针对各种大语言模型和数据集使用的单个攻击方法相比，该集成模型显著提高了曲线下面积（AUC-ROC）和准确率。这意味着通过结合不同方法的优势，研究者能够更有效地识别模型训练数据中的成员，从而为评估大语言模型的隐私风险提供一种更有力的工具。这项研究为大语言模型隐私保护领域的进一步研究提供了新方向，并凸显了开发更强大隐私审计方法的必要性。

链接：

https://arxiv.org/abs/2412.17249

迈向智能且安全的云：大语言模型赋能的主动防御

简介：云计算技术的快速发展以及云应用数量的不断增加，为日常生活带来了诸多益处。然而，不同组件的多样性和复杂性给云安全带来了重大挑战，尤其是在应对复杂且先进的网络攻击时。生成式基础模型（GFMs）方面的最新进展，特别是大语言模型（LLMs）的进展，为安全智能提供了颇具前景的解决方案。通过利用其在语言理解、数据分析、任务推断、行动规划以及代码生成方面的强大能力，研究者提出了一种名为 LLM-PD 的新型主动防御架构，它能以主动的方式抵御各类威胁。LLM-PD 可以通过全面的数据分析和顺序推理高效地做出决策，还能在目标云上动态创建并部署可付诸行动的防御机制。此外，它能够基于以往交互中所汲取的经验灵活地自我进化，无需额外训练就能适应新的攻击场景。实验结果彰显了它在防御效果和效率方面的卓越能力，尤其突出的是，与其他现有方法相比，它有着出色的成功率。

链接：

https://arxiv.org/abs/2412.21051

Auto-RT：针对大语言模型进行红队测试的自动越狱策略探索

简介：自动化红队测试已成为发现大语言模型（LLMs）中漏洞的关键方法。然而，大多数现有方法侧重于孤立的安全缺陷，限制了它们适应动态防御以及高效发现复杂漏洞的能力。为应对这一挑战，研究者提出了 Auto-RT，这是一个强化学习框架，它能自动探索并优化复杂的攻击策略，通过恶意查询有效地发现安全漏洞。

具体而言，研究者引入了两个关键机制来降低探索的复杂性并改进策略优化：1）提前终止探索，通过聚焦于潜力较高的攻击策略来加快探索速度；2）带有中间降级模型的渐进式奖励追踪算法，该算法朝着成功利用漏洞的方向动态地优化搜索轨迹。

在不同大语言模型上开展的大量实验表明，通过显著提高探索效率并自动优化攻击策略，Auto-RT 能够检测出更广泛范围的漏洞，与现有方法相比，其检测速度更快，成功率也高出 16.63%。

链接：

https://arxiv.org/abs/2501.01830

CySecBench：用于对大语言模型进行基准测试的基于生成式人工智能且聚焦网络安全的提示数据集

简介：众多研究已经对破解大语言模型（LLMs）以生成有害内容的方法展开了调查。通常，这些方法是使用恶意提示数据集来评估的，这些数据集旨在绕过大语言模型提供商所制定的安全策略。然而，现有数据集普遍范围宽泛且具有开放性，这可能会使越狱（破解）有效性的评估变得复杂，在特定领域尤其是网络安全领域更是如此。

为解决这一问题，研究者推出并公开发布了赛思基准（CySecBench），这是一个包含 12662 个提示的综合数据集，专门用于评估网络安全领域内的越狱（破解）技术。该数据集被组织成 10 个不同的攻击类型类别，采用封闭式提示，以便对越狱（破解）尝试进行更一致且准确的评估。

此外，研究者详细介绍了生成和过滤该数据集的方法，该方法可经调整用于在其他领域创建类似的数据集。为展示赛思基准（CySecBench）的实用性，研究者提出并评估了一种基于提示模糊化的越狱（破解）方法。研究者的实验结果显示，这种方法成功地从商业黑箱大语言模型中引出了有害内容，在与 ChatGPT 交互时成功率（SR）达到 65%，与 Gemini 交互时达到 88%；相比之下，Claude 表现出更强的抵御能力，其越狱（破解）成功率为 17%。与现有的基准测试方法相比，研究者的方法表现出更优的性能，凸显了特定领域评估数据集对于评估大语言模型安全措施的价值。而且，当使用一个广泛应用的数据集（即对抗基准（AdvBench））中的提示进行评估时，它实现了 78.5% 的成功率，高于现有最先进的方法。

链接：

https://arxiv.org/abs/2501.01335