【论文速读】| 在安全运营中心使用大语言模型来实现威胁情报分析工作流程的自动化

本次分享论文：Using LLMs to Automate Threat Intelligence Analysis Workflows in Security Operation Centers

基本信息

**原文作者：**PeiYu Tseng, ZihDwo Yeh, Xushu Dai, Peng Liu

**作者单位：**Penn State University, State College, PA, 16801

**关键词：**LLMs, agent, threat intelligence analysis

**原文链接：**https://arxiv.org/pdf/2407.13093

**开源代码：**暂无

论文要点

**论文简介：**SIEM系统在安全运营中心（SOC）中扮演着关键角色，负责监控和分析网络威胁。然而，当前SIEM系统无法自动化处理自然语言编写的网络威胁情报（CTI）报告，导致分析师必须花费大量时间进行手动分析。本文提出了一种利用大语言模型（LLMs，如GPT-4）的AI智能体，以自动化处理CTI报告中的重复性任务。该智能体通过四步过滤过程，生成准确的正则表达式，并提供关系图，帮助SOC分析师更快、更准确地响应威胁。这一创新显著减轻了分析师的工作负担，提高了SOC的效率和响应速度。

**研究目的：**本文旨在解决当前SIEM系统无法自动化处理自然语言编写的网络威胁情报（CTI）报告的问题。通过开发一种利用大语言模型（LLMs，如GPT-4）的AI智能体，自动执行CTI报告的分析任务，以减轻分析师的工作负担。该智能体通过提取重要信息、生成正则表达式，并构建威胁情报关系图，帮助安全运营中心（SOC）提高效率，加快对网络攻击的响应速度。

研究贡献

提出了一种新的AI智能体，用于自动提取CTI报告中的重要信息并生成正则表达式（Regex）。
为确保生成的Regex的准确性，研究者采用了四步过滤过程，排除潜在的假阳性和假阴性。
该AI智能体还能提供关系图，描绘CTI报告中不同威胁情报之间的联系。
本项目首次提出一种无需任何人工干预的AI智能体，利用LLMs的革命性能力，使CTI分析工作流实现高度自动化。

引言

网络犯罪每年给全球造成巨大的经济损失，仅在2023年，美国的消费者和企业就损失了超过125亿美元。为了应对这些威胁，企业越来越依赖安全运营中心（SOC），其中SIEM系统成为其核心工具。SIEM系统通过实时关联引擎帮助检测攻击，但面对自然语言编写的网络威胁情报（CTI）报告，SIEM系统仍需依赖分析师进行大量手动分析。这一过程不仅耗时，还增加了对攻击的响应时间。

尽管已有一些研究利用机器学习技术从安全文档中自动提取信息，但这些领域特定的AI模型在处理多样化和不断变化的攻击技术时表现有限。因此，本文提出了一种AI智能体，利用大语言模型（如GPT-4），自动化处理CTI报告中的重复性任务，从而提高SOC的效率，减轻分析师的工作负担。

研究方法

本文提出的AI智能体通过八个步骤自动化处理网络威胁情报（CTI）报告。

首先，将CTI报告按段落分割，并利用大语言模型（LLMs）提取每段中的攻击指标（IOCs）。

其次，采用多次运行LLMs并进行投票机制，结合检索增强过滤，净化提取结果。然后，通过检索增强匹配机制区分捕获组和非捕获组，生成正则表达式（Regex）。

第三，利用LLMs识别IOCs之间的依赖关系，分类并验证每个依赖关系。

最后，构建威胁情报关系图，显示IOCs之间的联系。通过这些步骤，AI智能体能够自动提取CTI报告中的关键信息，生成准确的Regex，并提供关系图，帮助安全运营中心（SOC）快速、高效地应对网络威胁。

AI智能体概述

研究者的AI智能体工作流程分为两部分。首先，研究者将CTI报告分段，利用LLM（如GPT-4）提取每段中的攻击指标（IOC）。其次，通过多次运行LLM和检索增强过滤净化响应。第三，研究者区分IOC字符串中的捕获组和非捕获组，并生成用于SIEM规则的正则表达式（Regex），通过Regex测试器验证其准确性。之后，研究者识别IOC之间的依赖关系，对其进行分类和验证。最后，研究者构建关系图，显示IOC之间的联系。该流程有效解决了自动化处理CTI报告中的多个技术挑战，提高了SOC的效率和准确性。

研究评估

研究者在50多份网络威胁情报（CTI）报告上对AI智能体进行了测试，结果表明该智能体能够有效识别和处理大量的攻击指标（IOCs）。在实验中，LLMs识别了超过2900个潜在的IOCs，通过净化后确定了约2300个有效IOCs，包括文件名、域名、哈希值、IP地址、命令行和注册表键值。

研究者发现，AI智能体生成了约2200个正则表达式（Regex），并成功构建了威胁情报关系图。相比手动识别的真实情况，AI智能体仅遗漏了3%的IOCs。这些结果表明，AI智能体不仅显著提高了CTI报告处理的效率，还大幅减少了分析师的工作负担，有助于安全运营中心（SOC）更快速地响应网络攻击。

论文结论

本文提出了一种创新的AI智能体，旨在自动化处理网络威胁情报（CTI）报告中的重复性任务。通过利用大语言模型（LLMs，如GPT-4）的强大能力，该智能体能够准确提取CTI报告中的重要信息，生成正则表达式（Regex），并构建威胁情报关系图。这不仅减轻了安全分析师的工作负担，还显著提高了安全运营中心（SOC）的效率和响应速度。

实验结果表明，该AI智能体在识别和处理攻击指标（IOCs）方面具有高效性和准确性。总体而言，本文的研究为自动化CTI分析工作流提供了一种有效的解决方案，具有广泛的应用前景。

原作者：论文解读智能体

校对：小椰风