【论文速读】| MoRSE：利用检索增强生成技术填补网络安全专业知识的空白

本次分享论文：MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation

基本信息

**原文作者：**Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti

**作者单位：**意大利比萨国家研究委员会信息学与电信研究所，圣安娜高等大学TeCIP研究所，意大利帕多瓦大学和荷兰代尔夫特理工大学

**关键词：**MoRSE, 网络安全, 检索增强生成, 人工智能聊天机器人

**原文链接：**https://arxiv.org/pdf/2407.15748

开源代码：

https://github.com/Mixture-of-RAGs-Security-Experts/MoRSE

论文要点

**论文简介：**本文介绍了MoRSE（Mixture of RAGs Security Experts），这是首个专为网络安全设计的AI聊天机器人。MoRSE利用两个并行工作的RAG（检索增强生成）系统，从多维网络安全背景中检索并组织信息。

与依赖固定知识库的传统大语言模型不同，MoRSE实时从非固定知识库中检索文档并生成准确的答案，同时不断更新其知识库。评估结果显示，MoRSE在600个网络安全问题上的回答相关性和正确性比GPT-4和Mixtral 7x8等现有模型高出10%以上，显著提升了网络安全领域的知识覆盖和回答准确性。

研究贡献：

本文的主要贡献可以总结如下：

研究者引入了 MoRSE 这一开源框架，它是首个尝试集成两个 RAG 系统以处理多维网络安全上下文的架构。该架构达成了不同数据源的独特综合，提升了安全见解的深度与相关性。
研究者引入了一个由三部分组成的评估测试套件，用于衡量 RAG 系统与 LLM 相结合在相关性、相似性和正确性方面的表现。此外，研究者还基于LLM作为评判者的方法，使用另外两个测试套件进一步验证了这些结果。据研究者所知，这是首次作出这样的贡献。
研究者展示了 MoRSE 是如何凭借其独特的实时网络安全关键字检测能力，将响应的正确性提高 10%，从而满足及时且准确的安全分析这一关键需求。
MoRSE 有别于传统的 RAG，其通过运用并行检索器来检索不同格式和结构的语义相关信息。这在网络安全领域极为重要，因为针对特定威胁，通常存在不同的数据类型（例如漏洞利用代码、TTP 描述、CVE 和白皮书），然而这些数据极少相互关联。MoRSE 借助这些并行检索器和 LLM 来整合相关信息，并提供全面的查询答案。

引言

随着网络威胁的频率和复杂性不断增加，网络安全已成为各行业的关键优先事项。尽管近年来与网络安全相关的信息量激增，为应对这些威胁提供了重要资源，但这种信息的快速增长也导致了数据的杂乱和无结构化，使专业人员难以获得可操作的见解。

大语言模型（LLM）虽然在合成大量信息方面取得了显著进展，但在处理技术话题时存在可靠性问题，尤其是在面对快速演变的网络威胁时。LLM生成错误或不可靠回答的情况并不少见，特别是在代码生成任务中。为了应对这些挑战，MoRSE通过集成两个RAG系统，实现了实时更新知识库的能力，提供了更加准确和全面的网络安全解决方案。

研究背景

MoRSE的开发是为了应对现有大语言模型在网络安全领域的不足。随着网络威胁的不断增加和复杂化，及时、准确和全面地理解漏洞、利用和防御策略变得至关重要。虽然LLM在合成大量信息方面取得了重大进展，但其在处理技术话题时的可靠性差异较大，尤其是在网络威胁快速演变的情况下。MoRSE通过引入检索增强生成技术，将传统RAG系统与实时更新的知识库相结合，有效解决了这一问题。

MORSE架构

MoRSE架构由两个主要组件组成：结构化RAG 和非结构化RAG。结构化RAG从预处理的结构化数据中快速检索信息，如MITRE、CVE库、Metasploit和ExploitDB等。这个模块通过将文本转换为结构化格式，使检索过程更加高效和准确。非结构化RAG用于处理结构化RAG无法解决的查询，主要从未处理的原始文本中检索信息。它包含多个缓冲区，每个缓冲区专门处理不同类型的数据（如文本、代码、学术论文等）。

当用户提交查询时，系统首先通过结构化RAG进行检索，如果未找到相关信息，则调用非结构化RAG。MoRSE还集成了实时更新机制，允许知识库在无需重新训练的情况下动态扩展。

此外，MoRSE的并行检索器能够同步检索多种格式和结构的信息，确保提供全面且准确的答案。这种双重RAG架构使MoRSE能够有效应对复杂的网络安全查询，显著提升回答的准确性和覆盖范围。

实验与评估

研究者通过600个网络安全特定问题对MoRSE的性能进行了全面评估，并与现有的先进大语言模型（如GPT-4、GEMINI、MIXTRAL和HACKERGPT）进行了比较。这些问题包括150个普通网络安全问题、150个多跳问题和300个CVE问题。

评估结果显示，MoRSE在答案的相关性和正确性方面表现优异，普通问题的相关性和正确性提高了15%以上，多跳问题和CVE问题的正确性提高了10%以上。特别是在处理CVE问题时，MoRSE的回答准确性比GPT-4高出50%。

此外，通过基于LLM的裁判方法，MoRSE在对手模型中的Elo评分也显著领先。这些结果验证了MoRSE在网络安全领域提供高质量回答的能力，表明其在应对复杂和多变的网络安全挑战方面具有显著优势。

论文结论

本文介绍了MoRSE，这是一个创新的网络安全问答框架，通过集成两个RAG系统，MoRSE能够从多维数据源中检索并生成高质量的答案。实验结果表明，MoRSE在处理普通网络安全问题、多跳问题和CVE问题时，表现均优于现有的先进模型，如GPT-4和MIXTRAL，尤其在准确性和相关性方面提升显著。

MoRSE的实时更新机制和并行检索能力确保其在动态变化的网络安全环境中保持领先地位。这一研究展示了RAG系统在提升网络安全问答质量和覆盖范围方面的巨大潜力。

原作者：论文解读智能体

校对：小椰风