第73期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

CTINEXUS：在数据稀缺的情况下，利用优化的大语言模型上下文学习来构建网络安全知识图谱

简介：本文中，研究者提出了 CTINexus，这是一个新颖的框架，利用大语言模型（LLM）的优化上下文学习（ICL）来进行高效的数据 CTI 知识提取和高质量的网络安全知识图谱（CSKG）构建。与现有方法不同，CTINexus 既不需要大量数据也不需要参数调整，并且可以通过最少的标注示例适应各种本体。这是通过以下方式实现的：（1）精心设计的自动提示构建策略，结合最佳的示例检索，以提取广泛的网络安全实体和关系；（2）分层实体对齐技术，对提取的知识进行规范化处理并去除冗余；（3）ICL 增强的长距离关系预测技术，以进一步用缺失的链接完善 CKSG。我们使用从 10 个平台收集的 150 份真实世界的 CTI 报告进行的广泛评估表明，CTINexus 在构建准确和完整的 CSKG 方面明显优于现有方法，凸显了其通过高效且适应性强的解决方案为动态威胁形势下的 CTI 分析带来变革的潜力。

链接：

https://arxiv.org/abs/2410.21060

反击人工智能黑客：提示注入作为对抗由大语言模型驱动的网络攻击的防御手段

简介：研究者发现，大语言模型（LLMs）越来越多地被用于自动化网络攻击，这使得复杂的攻击手段更易获取且更具可扩展性。对此，研究者提出了一种专门针对由大语言模型驱动的网络攻击的新防御策略。研究者引入了 "螳螂"（Mantis）这一防御框架，它利用大语言模型对对抗性输入的敏感性来破坏恶意操作。当检测到自动化网络攻击时，"螳螂" 会在系统响应中精心植入特定输入，引导攻击者的大语言模型破坏他们自己的操作（被动防御），甚至危及攻击者的机器（主动防御）。研究者通过部署有针对性的易受攻击的诱饵服务来吸引攻击者，并对攻击者的大语言模型使用动态提示注入，使 "螳螂" 可以自动反击攻击者。在研究者的实验中，"螳螂" 在对抗由大语言模型驱动的自动化攻击时始终能达到 95% 以上的有效性。

链接：

https://arxiv.org/abs/2410.20911

揭开应用程序编程接口（APIs）的神秘面纱：在社会工作研究中释放大语言模型和其他基于网络的人工智能服务的力量

简介：本文旨在揭开应用程序编程接口（APIs）的神秘面纱，阐述其提升研究方法的途径。文中先是对 API 的功能进行了全面概述，并详细讲解如何将其融入研究工作流程，为那些没有编程经验的研究者扫除常见障碍。

进一步地，本文针对使用 APIs 的代码和程序展开了细致的技术分解，重点聚焦于与大语言模型（LLMs）的连接，以及利用 LLMs 促进 API 连接的方法。通过实际的代码示例，展示了大语言模型生成用于访问专业服务（如从非结构化文本中提取数据）的 API 代码的具体过程。

同时，本文着重强调了数据安全、隐私考量以及伦理问题，凸显在使用 APIs 时谨慎处理数据的重大意义。通过为研究者提供这些实用的工具和知识，本文期望社会工作研究能够借助人工智能技术的有效整合，进一步扩大自身影响力。

链接：

https://arxiv.org/abs/2410.20211

RobustKV：通过键值对驱逐防御大语言模型免受越狱攻击

简介：本文提出了 RobustKV，这是一种新颖的防御方法，它采用了一种完全不同的方法，即从键值（KV）缓存中有选择地移除有害查询的关键标记。直观地说，要使越狱提示有效，其标记必须达到足够的 "重要性"（通过注意力分数衡量），这不可避免地会降低隐藏的有害查询中标记的重要性。因此，通过策略性地驱逐排名最低的标记的键值对，RobustKV 减少了有害查询在 KV 缓存中的存在，从而防止大语言模型生成恶意响应。

使用基准数据集和模型进行的广泛评估表明，RobustKV 能有效对抗最先进的越狱攻击，同时保持大语言模型在良性查询上的一般性能。此外，RobustKV 给攻击者制造了一个有趣的规避困境，迫使他们在躲避 RobustKV 和绕过大语言模型的内置防护之间进行权衡。这种权衡有助于 RobustKV 对自适应攻击的鲁棒性。

链接：

https://arxiv.org/abs/2410.19937

通过良性数据镜像对大语言模型进行隐蔽越狱攻击

简介：研究者认为，大语言模型（LLM）的安全性是一个关键问题，为此众多研究采用红队测试来增强模型安全性。在这些研究中，越狱方法是通过精心制作恶意提示来探索潜在漏洞，诱导模型输出与安全对齐相悖的结果。研究者指出，现有的黑盒越狱方法通常依赖于模型反馈，在攻击搜索过程中会反复提交带有可检测恶意指令的查询。虽然这些方法有一定效果，但在搜索过程中攻击可能会被内容审核员拦截。

于是，研究者提出了一种改进的迁移攻击方法，即通过良性数据提炼在本地训练目标黑盒模型的镜像模型，以此来指导恶意提示的构建。这种方法隐蔽性更强，因为在搜索阶段它不会向目标模型提交可识别的恶意指令。研究者利用该方法在 AdvBench 的一个子集上针对 GPT - 3.5 Turbo 进行测试，实现了最高 92% 的攻击成功率，在平衡值下为 80%，平均每个样本有 1.5 个可检测的越狱查询。这些结果让研究者意识到需要更强大的防御机制。

链接：

https://arxiv.org/abs/2410.21083

人工智能驱动的网络威胁情报自动化

简介：研究者在本研究中介绍了一种创新方法，即通过利用微软的人工智能驱动的安全技术，在工业环境中实现网络威胁情报（CTI）流程的自动化。从历史情况来看，CTI 一直严重依赖手动方法从各种来源（如威胁情报源、安全日志和暗网论坛）收集、分析和解释数据，这一过程效率低下，特别是在快速传播信息至关重要的情况下更为突出。

研究者通过运用 GPT - 4o 的能力和针对大语言模型的先进一次性微调技术，开发出了一种全新的 CTI 自动化解决方案。该方案所构建架构的成果是，在减少人工投入的同时，能保证生成最终 CTI 报告的准确性。这项研究凸显了人工智能驱动技术在提高 CTI 的速度和准确性、降低对专家依赖方面的变革潜力，这为应对当今动态变化的威胁形势提供了关键优势。

链接：

https://arxiv.org/abs/2410.20287