第57期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

大语言模型（LLMs）在网络安全防御中的全面概述：机遇与方向

简介：研究者在网络安全领域应用大语言模型（LLMs）取得了显著进展。通过海量文本数据训练，LLMs 能够提供对上下文的深入理解和强大的编码能力，促进了网络威胁识别、事件响应和安全操作自动化。本文概述了 LLMs 在网络安全中的应用，包括威胁情报、漏洞评估、隐私保护等，并探讨了其面临的挑战和未来研究方向。

链接：

https://arxiv.org/abs/2405.14487

GPT-4通过自我解释几乎完美地自我越狱

简介：在本文中，研究者介绍了迭代细化诱导自越狱（IRIS），这是一种仅靠黑盒访问、利用 LLMs 反思能力的新越狱方法。与以往不同，IRIS 让单个模型兼任攻击者和目标，简化了越狱过程。该方法先通过自我解释迭代细化对抗性提示，确保校准良好的 LLMs 遵循指令，再依据细化提示对输出评级增强以增其危害性。研究者发现，IRIS 在 GPT-4 上越狱成功率达 98%，在 GPT-4 Turbo 上达 92%，查询少于 7 次。它在自动、黑盒和可解释越狱方面表现出色，优于以往方法，查询次数也大幅减少，为可解释越狱方法树立新标。

链接：

https://arxiv.org/abs/2405.13077

生成式AI和大语言模型在网络安全中的应用：你需要了解的所有洞察

简介：研究者深入探讨了生成式人工智能和大语言模型（LLMs）在网络安全领域的应用前景。通过分析GPT-4、GPT-3.5等先进模型，研究者概述了LLMs在硬件安全、入侵检测、软件工程等多个关键领域的应用。同时，文章审视了LLMs的潜在漏洞，如数据投毒和DDoS攻击，并提出了相应的缓解措施。研究者还评估了42种LLM模型在网络安全知识方面的表现，并探讨了数据集的生命周期管理，为未来研究指明了方向。此外，文章还回顾了增强LLMs性能的新技术，如半二次量化和检索增强生成，旨在提升实时网络安全防护和威胁响应的智能化水平。研究者为LLMs在未来网络安全框架中的整合提供了战略指导，强调了创新和模型的稳健部署对于应对网络威胁的重要性。

链接：

https://arxiv.org/abs/2405.12750

利用大语言模型有效检测和解释漏洞

简介：在本文中，开展了一项全面的研究，旨在调查 LLMs 在检测和解释漏洞方面的能力，并提出了 LLMVulExp，此为一个借助 LLMs 实现漏洞检测与解释的框架。在针对漏洞解释的专门微调下，LLMVulExp 不但能够检测代码中的漏洞类型，而且可以分析代码上下文，为这些漏洞生成原因、位置以及修复建议。研究发现，LLMVulExp 能够有效地促使 LLMs 进行漏洞检测（例如，在 SeVC 数据集上 F1 得分超过 90%）和解释。此外，还探索了使用诸如思维链（CoT）等先进策略引导 LLMs 关注易受攻击代码的潜力，并取得了良好的结果。

链接：

https://arxiv.org/abs/2406.09701

RL-JACK:针对大语言模型的强化学习驱动的黑盒越狱攻击

简介：在本文中，研究者提出了 RL-JACK，这是一种由深度强化学习（DRL）驱动的新型黑盒越狱攻击。研究者将越狱提示的生成表述为一个搜索问题，并设计了一种新的强化学习方法来解决它。研究者的方法包括一系列定制设计，以提高强化学习智能体在越狱情境下的学习效率。值得注意的是，研究者设计了一个由 LLM 辅助的动作空间，在限制整体搜索空间的同时实现了多样化的动作变化。研究者提出了一种新的奖励函数，为智能体实现成功越狱提供了有意义的密集奖励。通过广泛的评估，研究者证明 RL-JACK 总体上比现有的针对六个最先进的 LLM 的越狱攻击更有效，包括大型开源模型和商业模型。研究者还展示了 RL-JACK 对三种最先进的防御措施的弹性以及在不同模型之间的可转移性。最后，研究者验证了 RL-JACK 对关键超参数变化的不敏感性。

链接：

https://arxiv.org/abs/2406.08725