第83期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

混乱中建立秩序：人工智能在安全软件工程中的作用

简介：在软件工程（SE）领域，开发安全可靠的软件始终是一项艰巨的挑战。当今，技术格局持续演变，在带来诸多机遇的同时，也滋生了不少威胁，从而形成了一个混乱与秩序相互较量的动态环境。其中，安全软件工程（SSE）面临的任务尤为紧迫，它必须时刻应对那些危及软件系统的漏洞，因为这些漏洞一旦爆发，极有可能引发广泛的社会经济风险，诸如对关键国家基础设施造成破坏，进而导致巨额的经济损失。

为此，研究人员与从业者投入了大量精力，积极探寻各类方法以检测和化解这些漏洞。像静态应用安全测试工具（SASTTs），以及涵盖机器学习（ML）、大语言模型（LLMs）在内的人工智能（AI）技术，都成为了他们手中的有力武器。不过，每一种方法都并非尽善尽美，各自存在独特的优势与局限。

鉴于此，本论文确立了研究目标：致力于解决那些影响人工智能准确性的特定领域差异，期望为安全软件工程中的混沌局面拨云见日，重建秩序。

在研究过程中，采用了多元化的实证策略。一方面，对工作量感知指标展开精细评估，深度剖析静态应用安全测试工具；另一方面，进行全方位的方法层级分析，并巧妙运用基于证据的技术手段，比如开展系统性的数据集审查。这些举措协同发力，能够精准地对漏洞预测数据集予以特征刻画。

历经深入探究，收获了一系列关键成果。研究发现，静态分析工具在漏洞识别环节存在明显短板，静态应用安全测试工具对各类漏洞的覆盖存在显著空白，漏洞严重程度评分之间呈现出较弱的关联性；与此同时，即时建模技术的运用能够有效提升缺陷预测的精准度，而那些尚未触及的方法则潜藏着不容忽视的威胁。

综上所述，本论文清晰地揭示了安全软件工程的高度复杂性，有力地强调了背景知识在优化人工智能驱动的漏洞与缺陷预测过程中的关键意义。通过此番全面且深入的分析，推动了有效预测模型的持续进阶，无论是对专注前沿探索的研究人员，还是奋战在一线的从业者，都具有非凡的价值与助力。

链接：https://arxiv.org/abs/2501.05165

RAG-WM：一种用于检索增强大语言模型生成的高效黑盒水印方法

简介：近年来，检索增强生成（RAG）大获成功，被广泛用于强化大语言模型（LLM）在特定领域、知识密集型以及隐私敏感任务中的应用。然而，攻击者可能会窃取这些宝贵的RAG，并将其部署或商业化，所以，检测知识产权（IP）侵权显得尤为关键。

当前，大多数现有的所有权保护方案，像水印技术，主要是针对关系数据库和文本设计的，无法直接应用于 RAG。这是因为关系数据库水印需要白盒访问才能检测 IP 侵权，可对于 RAG 中的知识库而言，这种访问方式并不现实。同时，对手部署的 LLM 进行后处理时，通常会破坏文本水印信息。

为解决这些问题，研究者提出一种全新的黑盒 "知识水印" 方法 ------RAG-WM，用于检测 RAG 的 IP 侵权。RAG-WM 采用多 LLM 交互框架，涵盖水印生成器、影子 LLM、RAG 以及水印鉴别器。它依据水印实体关系三元组创建水印文本，并将其注入目标 RAG。

研究者在四个基准 LLM 上，针对三个领域特定任务和两个隐私敏感任务，对 RAG-WM 展开评估。实验结果显示，RAG-WM 能有效检测出各种已部署 LLM 中被盗用的 RAG。此外，RAG-WM 在应对释义、不相关内容删除、知识插入和知识扩展攻击时，表现出很强的抗性。最后，RAG-WM 还能避开其他水印检测方法，这充分展现出其在检测 RAG 系统 IP 侵权方面，具有良好的应用前景。

链接：https://arxiv.org/abs/2501.05249

FlipedRAG：针对大语言模型检索增强生成的黑盒观点操纵攻击

简介：检索增强生成（RAG）通过从知识数据库动态检索相关信息，补充大语言模型（LLM）的输入，以此解决幻觉和实时约束问题。每当有查询出现，RAG就会从其知识库中挑选语义最为相似的文本，将它们作为LLM的上下文，进而生成更准确的回应。

然而，RAG 也开创了新的攻击面，尤其是 RAG 数据库常源自公共领域。当前，现有研究大多聚焦于优化 RAG 的性能与效率，不过新兴研究已开始关注 RAG 相关的安全问题。但这些研究存在一定局限性，一般侧重于白盒方法，或者基于启发式的黑盒攻击。而且，此前的研究主要针对简单的事实性问答，既缺乏实践挑战性，也难以抵御纠正。

在本文中，研究者揭示了一个更贴近现实、威胁性更强的场景：针对 RAG 在有争议话题上的意见操纵。具体而言，研究者提出了一种基于迁移的新型 RAG 黑盒攻击方法，名为 FlipedRAG。借助指令工程，研究者从黑盒 RAG 系统获取部分检索模型输出，进而推动替代模型的训练，增强观点操纵攻击的有效性。

大量实验结果表明，研究者的方法显著提升了观点操纵的平均成功率，幅度达 16.7%。它使四个主题中 RAG 响应的观点极性平均产生了 50% 的方向性转变，还引发了用户认知 20% 的变化。此外，研究者探讨了潜在防御机制的有效性，最终得出结论：这些防御机制不足以减轻此类攻击，这凸显了开发新型防御策略的迫切性。

链接：https://arxiv.org/abs/2501.02968

个性化LLM拆分学习中的模型反转：信息瓶颈理论的新见解

简介：个性化大语言模型（LLM）日益普及，展示了诸如 GPT-4 这类模型的出色能力。这一趋势也推动了在移动设备上部署 LLM 的广泛研究。可行的边缘-云部署方法包括使用分割学习。然而，以往的研究在很大程度上忽视了从设备传输到服务器的中间表示所涉及的隐私泄露问题。

本研究首次在 LLM 的分割学习框架中识别出模型反转攻击，强调了安全防御的必要性。研究者首次引入互信息熵来理解基于 Transformer 的 LLM 的信息传播，并评估 LLM 块的隐私攻击性能。为了解决表征比嵌入更稀疏且包含信息更少的问题，研究者提出了一种两阶段攻击系统，其中第一阶段将表示投影到嵌入空间，第二阶段使用生成模型从这些嵌入中恢复文本。该设计降低了复杂性，在各种场景中实现了 38% 至 75% 的攻击成功率，比最先进的技术高出 60% 以上。这项工作全面揭示了在边缘侧部署个性化大语言模型时潜在的隐私风险。

链接：https://arxiv.org/abs/2501.05965

LLM4CVE：利用大语言模型实现迭代自动漏洞修复

简介：即便身处人工智能代码助手、高级静态分析工具以及广泛测试框架蓬勃发展的时代，软件漏洞依旧屡见不鲜。显然，研究者的任务不单是预防这些漏洞，更要迅速且有效地将其消除。但传统的人工代码干预手段存在诸多弊端，速度迟缓、成本高昂不说，在遗留代码库中操作时，还常常引发新的安全漏洞。

好在高度先进的大语言模型（LLM）应运而生，为诸多软件缺陷的自动修补开辟了新路径。基于此，研究者创新性地提出了 LLM4CVE，这是一套依托 LLM 构建的迭代式管道，能够精准且稳健地修复实际代码里易受攻击的函数。

为验证该管道的有效性，研究者启用了当下最先进的 LLM，诸如 GPT-3.5、GPT-4o、Llama 38B 和 Llama 3 70B 等，对其展开检验。最终，研究者达成了 8.51/10 的人工验证质量分数，并且在运用 Llama 3 70B 时，成功将真实代码相似度提升 20%。

链接：https://arxiv.org/abs/2501.03446