[论文阅读] (45)C&S24 AISL: 基于攻击意图驱动与序列学习方法的APT攻击检测

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座，并分享给大家，希望您喜欢。由于作者的英文水平和学术能力不高，需要不断提升，所以还请大家批评指正，非常欢迎大家给我留言评论，学术路上期待与您前行，加油。

前一篇博客介绍一种基于LLM少样本多标签的Android恶意软件检测方法，旨在提升噪声场景和数据稀缺场景下的检测鲁棒性。本文提出了一种新颖的攻击意图驱动与序列学习相结合的APT检测方法（Attack Intent-driven and Sequence-based Learning，AISL）。本文构建了面向网络事件的专用本体模型，设计并生成融合多源审计数据的溯源图，依据攻击意图对潜在攻击行为进行识别与标注。注意，由于我们团队还在不断成长和学习中，写得不好的地方还请海涵，希望这篇文章对您有所帮助，这些大佬真值得我们学习。fighting！

欢迎关注作者新建的『网络攻防和AI安全之家』知识星球（文章末尾）

原文作者 ：Hao Yue, Tong Li, Di Wu, Runzi Zhang, Zhen Yang
原文标题 ：Detecting APT attacks using an attack intent-driven and sequence-based learning approach
原文链接 ：https://www.sciencedirect.com/science/article/pii/S016740482400049X
发表期刊 ：2024 Computers & Security （中科院SCI 2区 CCF B）
研究机构 ：Beijing University of Technology, NSFOCUS
笔记作者：贵大0624团队睿杰

一.摘要

高级持续性威胁（Advanced Persistent Threats，APTs）对网络安全构成了重大威胁，其能够逐步瓦解企业的整体安全防御体系。近年来，相关研究主要通过匹配APT攻击中典型的战术、技术与过程（Tactics, Techniques, and Procedures，TTPs）来实现APT攻击检测。然而，由于真实APT正样本数量有限，现有方法的检测性能在很大程度上受到制约。

针对上述问题，本文提出了一种新颖的攻击意图驱动与序列学习相结合的APT检测方法（Attack Intent-driven and Sequence-based Learning，AISL）。该方法通过整合来自多源异构的审计数据，并基于攻击意图构建相应的安全标签，从而有效缓解正样本稀缺问题。具体而言，本文系统分析了多种攻击检测数据源，构建了面向网络事件的专用本体模型。在此基础上，设计并生成融合多源审计数据的溯源图（Provenance Graph）。在溯源图构建过程中，依据攻击意图对潜在攻击行为进行识别与标注，以扩充数据集中可用于学习的正样本数量。随后，基于标签序列训练语义学习模型，实现对APT攻击的精准检测。

实验部分选取了十个真实APT攻击场景对AISL方法进行评估。结果表明，该方法在平均精确率、召回率和F1值方面分别达到93.05%、98.12%和95.36%，整体性能显著优于现有主流检测方法，验证了所提出方法在APT检测任务中的有效性与先进性。

二.研究动机与贡献

当前领域遇到的挑战包括：

单一审计数据源导致语义缺失：现有方法多依赖单一审计数据源，无法融合不同操作系统（如 Linux 与 Windows）中实体的语义差异，造成同一类型文件（如用户文件）被误识别为不同对象，从而产生语义鸿沟，影响检测精度。
正样本稀缺影响攻击检测精度：为提升训练效率，现有工作多通过图剪枝、图融合等方法减少负样本数量，但正样本（攻击行为）数量未变，导致模型学习有限的攻击特征，制约检测性能。

在介绍具体工作之前，我们先给出基础概念，如图1所示。

图 A 展示了基于审计日志构建的系统溯源图，节点代表实体，边代表事件。红色虚线框中标出的是攻击相关部分，由传统方法标识出来。由于节点和路径众多，原始图结构非常复杂，难以直观识别出完整的攻击流程。
图 B 将溯源图中的攻击事件抽取为时间有序的操作序列，每步包含操作动作和实体标签（如 BA 表示后门，PR 表示特权）。这种结构便于模型理解攻击的语义过程，是训练攻击检测模型的核心输入形式。
图 C 展示的是 AISL 模型最终还原的攻击场景，筛除了无关节点，仅保留关键攻击实体和路径。相比原始图，这种精简视图更清晰地揭示了攻击链条，提升了分析效率，也便于后续处置响应。

本文主要贡献与创新如下：

本体驱动的数据整合方法：提出一种基于本体的自动化方法，用于整合多源异构审计数据，构建统一的溯源图，避免语义信息丢失与语义鸿沟问题。
语义标注策略提升数据质量：设计攻击意图驱动的语义标签策略，对潜在攻击行为进行标注，增强正样本比例，优化审计数据集，提高复杂场景下的检测效率。
全面验证与优秀检测性能：在10组公开APT攻击数据集上验证所提AISL方法，实验表明该方法在攻击检测和攻击场景重建方面具有高准确率和有效性。

三.模型框架

1.整体框架

AISL的整体框架如下图所示：

（1）标签序列模型训练：系统从审计日志中构建溯源图，利用设计好的标签传播策略对图中节点和事件打标签。随后，从攻击实体出发提取语义路径序列，并将其嵌入为向量输入 LSTM 模型进行训练，使模型能够学习攻击行为的语义特征。
（2）攻击检测阶段：用户提供一个告警实体（如恶意 IP）系统从该实体出发构建上下文序列，进行语义转化和嵌入后输入模型。模型判断每个实体是否为攻击相关，从而自动还原完整的攻击场景。

2.网络安全本体

该本体图定义了网络安全事件中主机、行为主体、操作对象、事件和标签五类核心实体及其关系，用于标准化溯源建模。

Host：表示承载行为与对象的主机实体，区分不同操作系统类型。
Subject：表示发起操作的进程或用户，是事件的行为主体。
Object：表示被操作的实体对象，如文件、会话、域名或网络连接等。
Event：表示一次具体操作行为，连接主体与对象，记录操作类型与时间。
Tag：表示对实体或事件的安全语义标注，用于识别攻击行为和传播标签。

3.标签传播初始化策略

对于标签主要为下面两大类型：

（1）节点遍历与初始化

如果节点的类型是IP地址，则检查其是否存在于白名单中：若在白名单中，则将其标记为 ttag = BA（可信）。若不在白名单中，则标记为 ttag = UN（未知）。如果节点类型是文件，则判断其是否属于敏感数据：若属于敏感数据，则标记为 ttag = BA 和 ctag = PR（表示为可信的私密数据）。若不属于敏感数据，则标记为 ttag = BA 和 ctag = PU（可信但为公开数据）。

（2）边遍历与继承策略

若该边连接的任一端（即 subject 或 object）的 ttag 为 UN，则该边也被标记为 ttag = UN，表示其不可信来源。否则，边的 ttag 标签将从连接的两端实体中选择安全等级较低的一方继承，确保安全传播过程中风险不会被改变。

4.标签传播策略

整个算法如下图所示，具体包括：

（1）持续检测与触发机制：该算法在系统运行过程中持续监测溯源图的变化。一旦检测到图中新增节点或事件关系，便立即触发相应的标签传播策略以完成自动标注。
（2）新增节点处理：若新节点名称存在于数据白名单中，则将其标记为可信标签 ttag = BA，内容标签 ctag = PR，并对其相关新事件赋予 ttag = BA。若不在白名单中，则调用默认标签策略DefaultTagPolicies 进行处理。
（3）新增事件处理：当仅有新的事件关系生成时，该事件的 ttag 标签继承其连接的主体与客体中安全等级较低的一方（取 Subject.ttag 和 Object.ttag 的较小值），确保标签风险最小化原则。

5.攻击序列构建

（1）溯源图初步构建

采用规则解析器从日志文件提取出溯源图。

（2）溯源图优化

无关实体与边的剔除：图中如实体 Z 无法通过攻击实体 A 到达，属于不可达节点，因此在右图中被移除。
重复事件的合并去重：如 A → B 存在两个 request 操作（T1 和 T6），图中只保留了事件时间最早的 T1，其余重复操作（如 T6）被删除。
语义重复实体的融合：A → C1 → D 和 A → C2 → D 表示两个语义相同的中间过程（如两个子进程写同一个文件），在右图中合并为单一链路 A → C → D。

（3）事件序列构建

攻击序列构建：设置攻击实体集合，基于实体在溯源图检索相关领域子图，并基于这个子图把所有和攻击实体相关的事件作为攻击序列
非攻击序列构建：在剩余图中随机选择若干实体（如普通进程、文件等）作为起点，构建其邻域事件序列。

示例如下：

四.实验评估

该论文围绕所提出的攻击意图驱动与序列学习相结合的 APT 检测方法（AISL），系统开展了完整而严谨的实验验证。实验首先基于公开的真实 APT 攻击报告构建评测数据集，通过复现单主机与多主机两类典型攻击场景，生成包含大量正常行为与攻击行为的异构审计数据。在此基础上，实验以网络事件本体为统一语义框架，将多源审计日志映射为带标签的溯源图，并通过攻击意图相关的标注策略扩充潜在攻击样本。

实验从实体级与事件级两个层面评估检测效果，重点分析模型在攻击实体识别、攻击事件定位及攻击场景重构中的表现。同时，通过消融实验对图优化、序列采样、语义嵌入与分类模型选择等关键模块进行对比分析，验证各组成部分对整体性能的贡献。结果表明，AISL 在复杂攻击场景下能够有效降低噪声干扰，准确识别攻击关键路径，并在整体检测能力上优于多种对比方法，体现了方法在实际 APT 检测任务中的可行性与实用价值。

表2展示了AISL 所评估的数据集覆盖了多种不同阶段的 APT 攻击流程，并且数据规模、日志类型和攻击特征具有显著多样性，从而验证了模型在多场景下的泛化能力和鲁棒性。

表3揭示了原始审计图中攻击行为的稀疏性和数据极度不平衡问题，说明模型训练前必须采用序列提取和样本平衡策略，以确保能有效学习到攻击行为特征。

表4展示了AISL 在从一个告警实体出发，识别全部相关攻击实体的能力。模型在不同攻击类型、不同起点下都能保持极高的准确率和召回率，说明其具备良好的泛化性、稳定性和实际可部署性。在关系预测任务中， AISL 在事件级别检测攻击行为上的极高准确性，说明模型不仅能扩展识别攻击实体，更能精确识别出哪些行为是攻击组成部分，如表5所示。这使得它适用于部署在高密度、低容错率的实际安全系统中。

AISL 在实体检测与事件检测两个维度上均显著优于传统图方法、经典机器学习和现有 SOTA 方法（如 ATLAS），如表6所示。这验证了 AISL 在语义建模、序列设计和标签传播等关键创新点上的有效性与优越性。

五.结论

本文围绕 APT 攻击检测中多源异构审计数据难以统一建模、正样本稀缺等关键问题，提出了一种基于攻击意图驱动与序列学习相结合的 APT 检测方法（AISL）。研究构建了专用的网络事件本体，实现了对异构审计数据的统一表示与同构化处理；通过引入攻击意图语义，对与 APT 攻击高度相关的潜在攻击行为进行识别与标注，有效扩充了正样本规模；在此基础上，利用基于标签序列的语义学习模型刻画攻击行为的时序演化特征，实现了对 APT 攻击的精准检测。实验结果表明，该方法在真实 APT 攻击数据集上取得了较高的检测性能，验证了攻击意图建模与序列语义分析在 APT 检测中的有效性和实用价值。

尽管本文方法在实验中取得了良好效果，但仍存在进一步拓展和优化的空间。

当前研究主要利用了溯源图和审计数据中的文本语义特征，尚未充分挖掘溯源图本身所蕴含的结构信息。
受限于数据规模与标注条件，尚未构建出适用于模型训练的高质量图结构特征表示。
未来研究将重点探索如何有效引入溯源图的结构特征，将节点关系、拓扑模式等高层次信息与现有语义特征相结合，从而更全面地刻画低层审计日志与高层系统行为之间的关联机制，进一步提升 APT 检测模型的表达能力、鲁棒性与泛化性能。

2024年4月28日是Eastmount的安全星球------『网络攻防和AI安全之家』正式创建和运营的日子，该星球目前主营业务为安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券，欢迎新老博友和朋友加入，一起分享更多安全知识，比较良心的星球，非常适合初学者和换安全专业的读者学习。

目前收到了很多博友、朋友和老师的支持和点赞，尤其是一些看了我文章多年的老粉，购买来感谢，真的很感动，类目。未来，我将分享更多高质量文章，更多安全干货，真心帮助到大家。虽然起步晚，但贵在坚持，像十多年如一日的博客分享那样，脚踏实地，只争朝夕。继续加油，再次感谢！

(By:Eastmount 2025-12-18 周四夜于贵阳 http://blog.csdn.net/eastmount/ )

前文赏析：