原文作者 :Lucía Mallo-Fernández, Noemí DeCastro-García
原文标题 :Enhancing AI explainability through meta-learning and association rule mining for feature selection in cybersecurity
发表期刊 :The Journal of Supercomputing (2026) 82:288
发表时间 :2026年3月24日
研究机构 :Research Institute of Applied Sciences in Cybersecurity, Universidad de León, Spain
核心贡献:提出了一种融合关联规则挖掘(ARM)与元学习(MtL)的特征选择框架,在UNSW-NB15数据集上仅用4个特征就达到了超越现有文献的最佳性能,实现了"设计即解释"(Explainability-by-Design)的AI可解释性范式。

1 Introduction
在当前的AI即服务(AI as a Service)时代,预训练模型通过API民主化地提供强大能力,降低了大规模模型训练的技术与财务门槛。然而,这种趋势凸显了AI可解释性(Explainability)与透明性的重要性------用户和开发者都需要理解模型为何做出特定决策或生成特定输出。
可解释人工智能(XAI)代表了机器学习领域的关键范式转变,它超越了单纯追求预测性能的局限,转而关注透明度、问责制和用户信任的根本需求。性能与可解释性之间的平衡因此变得至关重要。然而,大多数广泛使用的XAI方法存在一个根本性局限:它们是事后解释(Post-hoc)的。这些方法在模型训练完成并做出预测后才提供解释,这种被动式方法与设计之初就将透明性和可信度融入系统的需求形成鲜明对比。
以网络安全为例,安全分析师必须能够理解AI系统每个检测决策背后的推理逻辑,以便在面对新型攻击时验证、优化和调整模型输出。而这一过程始于特征空间(Feature Space)。特征选择(Feature Selection, FS)是关键的数据预处理步骤,它从高维数据集中选择相关特征子集以构建高预测性分类器。它不仅通过移除无关特征提高模型可解释性,还能降低计算复杂度并通过减少数据噪声避免过拟合。
鉴于关联规则挖掘(Association Rule Mining, ARM)固有的可解释性及其识别影响力特征的 proven 能力,将其应用于元学习(Meta-Learning, MtL)框架以进行特征选择呈现出重要机遇。本研究旨在应用一种性能驱动的元-关联规则分析方法来选择最具判别性且固有可解释的特征,通过ARM和MtL直接契合XAI的目标。
核心创新点:
- 将ARM从描述性工具转变为预测性和规定性工具,学习过去实验以推荐最优的可解释特征子集
- 采用"设计即解释"(Explainability-by-Design)视角,从ML管道最早阶段就纳入透明性
- ARM产生"如果前件,则后件"形式的显式、人类可读的逻辑语句,可被领域专家直接检查和验证
- 在元层级应用时,ARM规则描述的是特征子集与跨多个实验配置观察到的模型性能之间的系统关联,而非原始特征或单个样本间的关系
本文的一般思路是使用ARM进行FS,但创新点在于将ARM应用于元数据库(Meta-Database)的MtL上下文中。因此,规则现在具有直接且可解释的解释。与依赖事后解释的现有XAI方法相比,所提方法采用"设计即解释"视角,从ML管道最早阶段就纳入透明性。ARM本质上是可解释的,因为它产生"如果前件,则后件"形式的显式、人类可读逻辑语句,可被领域专家直接检查和验证。当在元层级应用时,ARM提供的规则不描述原始特征或单个样本之间的关系,而是捕获特征子集与跨多个实验配置观察到的模型性能之间的系统关联。所得解释是全局的,总结了许多模型和数据分区上的行为,而非个体预测。此外,可解释性从FS过程本身中涌现。从这个意义上说,FS不仅作为提高预测性能的机制,而且作为实现可解释AI的实用有效途径。
本研究的案例研究在著名的UNSW-NB15数据集上进行。元数据库通过整合传统FS方法的最优特征配置和研究文献中针对该数据集提出的最佳特征配置构建。作为迈向可解释性的第一步,拟合了一个多线性回归模型,以特征为自变量,性能指标(准确率)为因变量。完成此分析后,我们将MtL问题转换为适合应用ARM的格式。然后,我们建议将特征选择定向为面向模型性能,作为关联规则的后果。因此,我们从描述性规则挖掘转向预测性规则挖掘。
结果是攻击分类模型的显著性能,仅由四个特征(sbytes, smean, dbytes, service_-)组成,突显了我们Meta-ARM方法在FS方面的优势。这个最小子集不仅实现了高预测性能(准确率、马修斯相关系数、F1分数、召回率和特异性),而且在将相同ML算法应用于它们时,优于现有文献中提出的更大、更复杂的特征集。除了性能之外,这一结果对可解释网络安全具有重大影响。建立在仅四个易于理解的特征上的分类器本质上比依赖数十甚至数百个特征的分类器更透明和可审计。
另一方面,SAFE AI范式通过对ML模型的稳健性、预测有效性、道德行为和可解释性进行集成评估,支持ML模型的负责任部署,这些维度不仅是算法可测量的,而且对实际应用至关重要。我们在研究中纳入了SAFE AI分析。这种方法使我们能够评估应用Meta-ARM进行FS是否影响模型的关键维度。
最后,尽管本文侧重于ML和XAI,但这项工作涉及计算效率、可扩展性和算法优化的核心方面,这些是现代高性能计算(HPC)环境的核心。该研究探索了MtL和ARM在网络安全数据集中FS的集成,这是一个涉及管理大规模、高维数据的过程。这直接关联到HPC原理,因为学习模型的训练和特征子集的评估都是计算密集型任务,受益于并行化和基于加速器的架构。此外,该方法为AI驱动的高性能系统的新浪潮做出了贡献,其中XAI越来越需要大规模并行和异构计算。通过在保持高预测性能的同时提高模型透明度,我们的方法有助于弥合AI可解释性与计算效率之间的差距,与HPC系统向支持智能、数据密集型应用的当前演进保持一致。
本文组织如下:第2章介绍相关工作。第3章描述实验细节。第4章讨论结果。最后,第5章提供结论和未来工作。
2 Related work
由于复杂ML模型在高风险领域的部署日益增加,而这些领域中无法解释的错误可能导致严重后果,XAI的整合变得必要。XAI指的是内部操作和决策过程可被人类理解的AI系统。该领域广泛区分为两种主要方法:内在可解释模型(或玻璃盒模型)和事后方法。
内在可解释模型,如决策树和线性回归,设计上就是透明的,允许人类直接检查其内部逻辑和参数以理解决策过程。相比之下,事后方法旨在为复杂、通常是黑盒模型(如深度神经网络)的输出提供解释。这些技术虽然不提供对模型内部工作的完全透明,但旨在为个体预测或整体模型行为提供可理解的依据。
ML中采用的两种最广泛的事后可解释性方法是LIME(局部可解释模型无关解释)和SHAP(沙普利加性解释)。两者都旨在通过近似模型在个体预测周围的局部行为来使黑盒模型可解释。LIME通过在输入周围生成扰动样本并训练简单可解释模型来做到这一点。另一方面,SHAP利用合作博弈论概念为每个特征分配沙普利值,表示其对模型输出的贡献。虽然这两种方法都很强大,已在多个领域成功应用,但它们在实时、高容量环境中的操作可行性受到关键权衡的限制。此外,它们在模型训练后提供解释,而不影响学习过程本身。例如,它们不影响特征配置,这是模式识别中的关键预处理步骤。
FS被广泛用于降低不同领域数据集的维度。FS包括:给定具有特征X1,X2,...,XmX_1, X_2, \ldots, X_mX1,X2,...,Xm的数据集上的分类器或预测器,选择最优特征子集XoptX_{opt}Xopt使得分类器性能最大化。在传统方法中,基于过滤的方法仅分析每个特征包含的信息,计算效率高但分类精度有限。另一方面,包装方法基于特定学习模型的性能评估每个特征的质量,实现高分类精度但产生高计算成本。因此,有大量文献提出混合FS算法,结合过滤和包装方法,或具有多个步骤的算法,显著降低计算复杂度同时确保模型性能。
尽管FS过程通过仅选择问题最具判别性的变量有助于创建更可解释的模型,但其对可解释性的贡献通常仅限于简单的特征重要性排序。在这项工作中,我们提出使用ARM作为主动的、固有可解释的XAI方法,将其应用于特征工程。
ARM的目标 是发现大型数据库中项目集之间的关系或关联规则。这些规则通常采用"如果前件,则后件"的形式。设I={i1,...,id}\mathcal{I} = \{i_1, \ldots, i_d\}I={i1,...,id}为项目集,T={T1,...,Tn}\mathcal{T} = \{T_1, \ldots, T_n\}T={T1,...,Tn}为I\mathcal{I}I的子集集,即我们的交易数据集。关联规则是形式为X⇒ijX \Rightarrow i_jX⇒ij的规则,其中X⊂IX \subset \mathcal{I}X⊂I为前件,ij∈Ii_j \in \mathcal{I}ij∈I为从T\mathcal{T}T中提取的后件。这些规则将允许我们识别在成功子集中一起出现的频繁属性组合。这可能暗示通过个体选择不明显的特征间重要交互。
为确定其有效性,通常使用三个指标:支持度 、置信度 和提升度,定义如下:
supp(A)=∣{Tk∈T:A⊆Tk}∣∣T∣,andsupp(A⇒B)=supp(A∪B),conf(A⇒B)=supp(A∪B)supp(A),lift(A⇒B)=supp(A∪B)supp(A)⋅supp(B). \begin{aligned} &\text{supp}(A) = \frac{|\{T_k \in \mathcal{T}: A \subseteq T_k\}|}{|T|}, \quad \text{and} \quad \text{supp}(A \Rightarrow B) = \text{supp}(A \cup B), \\ &\text{conf}(A \Rightarrow B) = \frac{\text{supp}(A \cup B)}{\text{supp}(A)}, \\ &\text{lift}(A \Rightarrow B) = \frac{\text{supp}(A \cup B)}{\text{supp}(A) \cdot \text{supp}(B)}. \end{aligned} supp(A)=∣T∣∣{Tk∈T:A⊆Tk}∣,andsupp(A⇒B)=supp(A∪B),conf(A⇒B)=supp(A)supp(A∪B),lift(A⇒B)=supp(A)⋅supp(B)supp(A∪B).
其中A,B⊂IA, B \subset \mathcal{I}A,B⊂I,A∩B=∅A \cap B = \emptysetA∩B=∅。规则的支持度是T\mathcal{T}T中前件和后件都出现的所有交易的比例。该值指示该模式在数据中的普遍程度。规则的置信度是给定前件存在时,后件也出现的次数比例;即它给我们规则的可靠性。规则的提升度指示与随机偶然性相比关联的强度(>1表示正相关)。由此,我们可以确定规则是显著的还是仅仅是巧合。然后,如果规则表现出高置信度和提升度,它指示强相关性,可解释为因果或预测性的。
我们提出一种新方法,将ARM的传统应用从挖掘特征共现的描述性工具转变为从过去实验学习以推荐最优可解释特征子集的预测性和规定性工具。目标是发现哪些特征组合与高模型性能直接相关;即使用ARM发现形式为{featureA,featureB,...}⇒{High Performance}\{\text{feature}_A, \text{feature}_B, \ldots\} \Rightarrow \{\text{High Performance}\}{featureA,featureB,...}⇒{High Performance}的规则,它们以可解释的方式直接将特征组合与高预测能力联系起来。为实现这一点,需要元数据库。它必须构建为捕获众多FS实验的结果,提供一个结构化存储库,其中每个数据点显式地将特定特征集与测量的性能指标联系起来。
MtL(元学习)或学会学习是ML的高级子领域,专注于改进学习算法本身的性能。它不是训练单一模型解决特定问题,MtL旨在从跨不同任务的各种学习实验结果中学习。这一过程允许系统获得可泛化知识,更高效地应用于新的、未见过的任务。根据相关文献,最终目标是让元模型对学习过程本身形成复杂理解,使其能够对未来学习任务做出明智决策。
将MtL应用于FS是一种强大的方法,可以自动化和优化识别构建特定数据集ML模型最相关特征的过程。MtL通过从过去FS实验中学习,将其转变为系统过程。核心思想是构建一个元数据集,其中每个实例代表应用于特定数据集的FS策略,标签是获得的性能指标。对于具有NNN个特征的数据集,每个元示例xix_ixi可表示为二进制向量xi∈{0,1}Nx_i \in \{0,1\}^Nxi∈{0,1}N,其中值1表示该特定元示例中选择了相应特征,0表示未选择。将每个实验产生的性能指标作为目标变量添加到元数据库中。然后元模型学习所选特征与结果性能之间的关系。
通过将MtL集成到特征选择管道中,FS过程从试错搜索转变为知识驱动优化。此外,集成到Meta-ARM框架中,可以识别最小且可解释的特征子集,同时实现竞争性或优越的性能(见表1)。
表1 现有FS方法与所提Meta-ARM框架的比较
| 方法 | 基于ARM | 元层级 | 性能作为后件 | 可解释性类型 |
|---|---|---|---|---|
| 过滤法 | 否 | 否 | 否 | 统计性 |
| 包装法 | 否 | 否 | 是 | 模型依赖 |
| 混合过滤-包装 | 否 | 否 | 是 | 有限 |
| 基于ARM的FS(经典) | 是 | 否 | 否(共现) | 描述性 |
| 基于MtL的FS | 否 | 是 | 是 | 间接 |
| 所提Meta-ARM | 是 | 是 | 是 | 主动/内在 |
如表1所示,虽然现有方法优先考虑效率或准确性,但Meta-ARM引入了主动可解释性,这在误分类成本高的领域尤为关键。这种固有清晰度的要求不仅是理论偏好,而且是专业部门的实际需求。在网络安全中,透明度是不可协商的要求。
现代入侵检测系统(IDS)越来越多地采用复杂的ML和AI模型来应对日益增长的网络威胁。尽管最近一些研究解决了XAI问题,但基于ML的IDS模型通常以牺牲可解释性为代价获得高检测精度。现代IDS的这种黑盒性质创造了一个悖论:我们能检测威胁,但我们无法解释使某些检测成为可能的结构漏洞或特征依赖性。
正如我们上面解释的,ARM可以是一种强大的可解释方法。然而,在网络安全的情况下,其应用在很大程度上局限于数据层级,要么用于直接检测异常,要么用于简单特征分组。最早的贡献之一发现于文献[20],其中ARM被探索作为通过识别偏离预期行为的关联模式来发现网络数据异常的机制。在此基础上,文献[21]专注于通过ARM提取和总结异常流,有效地使用该技术构建正常行为配置文件,将偏差标记为潜在威胁。这种方法为文献[22]探索的基于日志的异常检测奠定了基础,其中ARM应用于来自不同来源的日志,如防火墙、认证系统和服务器,从而通过捕获跨系统模式增强入侵检测的稳健性。
从特征工程方法来看,使用ARM的最早网络安全研究论文之一是文献[23],它提出了一种结合ARM与中心属性点的混合FS方法,以识别最具影响力的项目集,突显了ARM提取强特征的能力。
此外,在文献[24]中,ARM应用于FS,展示如何使用基于规则的方法挖掘最强特征。文献[25]从更广泛的特征工程视角出发,将ARM和频繁项集挖掘技术定位为能够创建复合特征的工具。最近,文献[26]直接应用频繁项集挖掘和ARM进行网络威胁识别,重申了ARM在现代背景下的实用性。类似地,文献[27]将频繁项集挖掘集成到混合FS框架中,展示了入侵检测任务中ML性能的改进。最后,文献[28]引入了基于关联分类规则的特征选择用于恶意软件加壳分类,该方法概念上基于ARM,展示了该方法超越传统入侵检测的适应性。
尽管ARM在这些多样化的网络安全应用中展示了多功能性,但大多数现有文献侧重于改进检测,并未就FS过程本身提供系统的"为什么"。当检查UNSW-NB15数据集时,这一局限尤为明显。应用于该数据集的现有FS方法主要依赖于经典基于过滤的排名、嵌入式模型特定重要性度量或混合手动策划的特征子集。虽然这些方法展示了竞争性的预测性能,但它们未利用元层级信息,也未以可解释的规则方式显式建模特征配置与模型性能之间的关系。
在文献[29]中,通过统计检查和领域知识识别相关特征子集。所使用的FS策略本质上是基于过滤的且静态的,依赖于相关性度量和专家驱动推理,而非系统优化。虽然这种方法为数据集结构提供了宝贵见解,但它未在所选特征与模型性能之间建立显式关系。
另一方面,文献[24]展示了从同一数据集衍生的两个不同特征子集。在其第一种配置中,FS使用直接应用于原始特征空间的经典基于过滤的排名技术执行。这种方法计算效率高,但不考虑特征交互或跨实验条件的稳定性。他们的第二种配置通过经验性能观察指导的手动细化进一步减少特征集。虽然这导致紧凑的子集,但该过程既不系统也不可重现,且与所使用的特定数据集和分类器紧密耦合。
后来,文献[30]采用混合FS策略,结合统计过滤与降维技术作为两阶段入侵检测框架的一部分。虽然本质上是混合的,但选择过程仍然是数据集特定的,并针对固定架构优化,对为何保留特定特征的见解有限。然后,文献[31]引入了基于规则的入侵检测系统,其中特征工程和选择由从领域专业知识导出的手动定义规则指导。虽然基于规则的推理提供了一些可解释性,但选择过程本身不是自动化的。
更近的,文献[32]提出了一种混合学习框架,通过模型内部机制(如分类器内的嵌入式重要性度量)隐式处理特征相关性。在这种情况下,FS不是显式的预处理步骤,而是模型训练过程的涌现属性。因此,所选特征是模型依赖的,提供有限的透明性。此外,文献[33]依赖经典的卡方基于过滤的方法在模型训练前对特征进行排名和选择。虽然有效降低维度,但这种方法独立处理特征,不考虑它们对性能的综合效应或它们在不同训练-测试分割下的稳定性。最后,文献[34]应用基于卡方的FS后接深度学习模型。虽然报告了高性能,但FS阶段与学习过程脱节且缺乏可解释性。此外,所得模型涉及显著更高的计算复杂度。
为在我们的实验中测试Meta-ARM方法,我们将使用该数据集。
除了性能考虑之外,AI的快速扩展催生了对不仅准确而且可信的系统的迫切需求。从技术角度来看,SAFE AI弥合了面向性能的模型开发与价值敏感设计之间的差距。SAFE AI为跨不同领域评估和改进AI系统的可信度提供了具体方法。该框架捕捉AI可信度的四个关键维度:排名毕业准确率(RGA)、排名毕业稳健性(RGR)、排名毕业可解释性(RGE)和平等性度量。在整个研究过程中,我们认为超越传统性能指标并纳入综合分析以确定应用Meta-ARM是否影响系统可信度是至关重要的。
3 基础知识
为深入理解本文方法,本章介绍关联规则挖掘、元学习和可解释AI的核心概念。
3.1 关联规则挖掘(Association Rule Mining)
关联规则挖掘是数据挖掘中最重要的技术之一,旨在发现数据库中频繁出现的模式和项目集之间的有趣关系。
形式化定义:
设 I={i1,i2,...,im}I = \{i_1, i_2, ..., i_m\}I={i1,i2,...,im} 为项目(Item)的完整集合,D={T1,T2,...,Tn}D = \{T_1, T_2, ..., T_n\}D={T1,T2,...,Tn} 为事务(Transaction)集合,其中每个事务 T⊆IT \subseteq IT⊆I。关联规则表示为 X⇒YX \Rightarrow YX⇒Y,其中 X,Y⊆IX, Y \subseteq IX,Y⊆I 且 X∩Y=∅X \cap Y = \emptysetX∩Y=∅。XXX 称为前件(Antecedent),YYY 称为后件(Consequent)。
核心度量指标:
| 指标 | 定义 | 公式 | 意义 |
|---|---|---|---|
| 支持度(Support) | 包含X∪Y的事务占所有事务的比例 | supp(X⇒Y)=包含X∪Y的事务数总事务数\text{supp}(X \Rightarrow Y) = \frac{\text{包含}X\cup Y\text{的事务数}}{\text{总事务数}}supp(X⇒Y)=总事务数包含X∪Y的事务数 | 指示规则在数据中的普遍程度 |
| 置信度(Confidence) | 包含X的事务中也包含Y的条件概率 | conf(X⇒Y)=supp(X∪Y)supp(X)\text{conf}(X \Rightarrow Y) = \frac{\text{supp}(X \cup Y)}{\text{supp}(X)}conf(X⇒Y)=supp(X)supp(X∪Y) | 衡量规则的可靠性 |
| 提升度(Lift) | 控制Y频率后,Y在含X事务中的出现频率 | lift(X⇒Y)=supp(X∪Y)supp(X)⋅supp(Y)\text{lift}(X \Rightarrow Y) = \frac{\text{supp}(X \cup Y)}{\text{supp}(X) \cdot \text{supp}(Y)}lift(X⇒Y)=supp(X)⋅supp(Y)supp(X∪Y) | >1表示正相关,=1表示无关,<1表示负相关 |
Apriori算法是ARM的经典算法,利用反单调性(Antimonotonicity)进行剪枝:如果某个项目集是频繁的,则其所有子集也必须是频繁的。该算法首先找到所有支持度大于最小支持度(min_sup)的频繁项目集,然后基于这些频繁项目集生成置信度高于最小置信度(min_conf)的关联规则。
3.2 元学习(Meta-Learning)
元学习,俗称"学会学习"(Learning to Learn),指的是在多个学习情节(Learning Episodes)上改进学习算法的过程。与传统ML考虑在多个数据实例上改进模型预测不同,元学习关注的是学习算法本身的改进。
双层优化框架:
元学习将学习过程分为两个不同阶段:
- 基础学习(Base Learning):内部(下层)学习算法解决特定任务(如图像分类),由数据集和目标函数定义
- 元学习(Meta-Learning):外部(上层)算法更新内部学习算法,使得内部算法学到的模型在外部目标(如泛化性能或学习速度)上表现更好
形式化地,元训练阶段可表述为双层优化问题:
ϕ∗=argminϕETi∼p(T)[Lmeta(Ti,θi∗(ϕ))]\phi^* = \arg\min_\phi \mathbb{E}{T_i \sim p(T)}[\mathcal{L}^{meta}(T_i, \theta_i^*(\phi))]ϕ∗=argϕminETi∼p(T)[Lmeta(Ti,θi∗(ϕ))]
s.t.θi∗(ϕ)=argminθ[Lbase(Di,θi(Ai(ϕ)))]\text{s.t.} \quad \theta_i^*(\phi) = \arg\min\theta[\mathcal{L}^{base}(D_i, \theta_i(\mathcal{A}_i(\phi)))]s.t.θi∗(ϕ)=argθmin[Lbase(Di,θi(Ai(ϕ)))]
其中 Lmeta\mathcal{L}^{meta}Lmeta 和 Lbase\mathcal{L}^{base}Lbase 分别为外层和内层目标函数,Ti={Di,Lbase}∼p(T)T_i = \{D_i, \mathcal{L}^{base}\} \sim p(T)Ti={Di,Lbase}∼p(T) 表示从任务分布中采样的任务。
在AutoML中,元学习通过表征学习问题和工具(如元特征统计属性、超参数)来辅助配置推荐。它编码过去经验并作为解决未来问题的指导,能够快速评估学习工具的配置,而无需计算昂贵的模型训练和评估。
3.3 可解释人工智能(XAI)
XAI旨在使智能自主系统的行为对人类可理解。根据解释介入的时间点,XAI方法可分为三类:
| 阶段 | 目标 | 方法示例 |
|---|---|---|
| 建模前(Pre-model) | 更好地理解数据集 | 数据可视化、探索性数据分析 |
| 建模中(In-model) | 理解决策过程 | 内在可解释模型(决策树、线性模型) |
| 建模后(Post-model) | 模型近似和结果报告 | LIME、SHAP、特征重要性 |
内在可解释性 vs. 事后解释:
- 内在可解释(Ante-hoc/Intrinsic):模型本身设计为透明的,如决策树、线性回归、基于规则的分类器
- 事后解释(Post-hoc):应用于已训练模型的解释技术,如LIME、SHAP、注意力机制等
全局 vs. 局部解释:
- 全局解释(Global):审视算法整体,包括训练数据和算法使用
- 局部解释(Local):阐释特定决策过程
本文提出的Meta-ARM框架属于建模前/建模中的内在可解释方法,它通过特征选择过程本身产生可解释性,而非事后对黑盒模型进行解释。
3.4 UNSW-NB15数据集
UNSW-NB15是由UNSW Canberra的Cyber Range Lab于2015年发布的网络安全数据集,包含真实现代正常活动与合成当代攻击行为的混合。
数据集统计:
- 原始数据:254万条记录,100GB原始流量
- 使用子集:训练集175,341条,测试集82,332条
- 特征数:49个(本研究使用45个,移除了ID等无关特征)
- 类别:1个正常类 + 9个攻击类(Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode, Worms)
类别分布(训练集/测试集):
| 攻击类型 | 训练集数量 | 训练集比例 | 测试集数量 | 测试集比例 |
|---|---|---|---|---|
| Normal | 56,000 | 31.94% | 37,000 | 44.94% |
| Generic | 40,000 | 22.81% | 18,871 | 22.92% |
| Exploits | 33,393 | 19.04% | 11,132 | 13.52% |
| Fuzzers | 18,184 | 10.37% | 6,062 | 7.36% |
| DoS | 12,264 | 6.99% | 4,089 | 4.97% |
| Reconnaissance | 10,491 | 5.98% | 3,496 | 4.25% |
| Analysis | 2,000 | 1.14% | 677 | 0.82% |
| Backdoor | 1,746 | 1.00% | 583 | 0.71% |
| Shellcode | 1,133 | 0.65% | 378 | 0.46% |
| Worms | 130 | 0.07% | 44 | 0.05% |
该数据集存在严重的类别不平衡 (Normal占87%,Worms仅占0.007%)和类别重叠问题(许多攻击类记录模仿Normal行为)。特征分为六组:流特征、基础特征、内容特征、时间特征、通用特征和连接特征。
4 Materials and methods
本章详细描述数据集、算法、实验协议和性能指标。本文方法的核心是构建一个元数据集(Meta-Dataset),将特征选择问题转化为关联规则挖掘任务。
4.1 研究问题
所选方法旨在回答以下研究问题(RQ):
RQ1:MtL能否在应用于特定数据集的FS时提高模型性能?
RQ2:是否可能将Meta-ARM用于FS?如果能,能否提高性能?
RQ3:这些方法是否有助于构建使用它们的XAI模型?
RQ4:使用Meta-ARM进行FS是否会影响模型的SAFE AI特性?
4.2 数据集
UNSW-NB15数据集是在UNSW Canberra的网络靶场实验室创建的,用于生成真实现代正常活动与合成当代攻击行为的混合。捕获了100GB的原始流量。该数据集包含九种攻击类型,即Fuzzers、Analysis、Backdoors、DoS、Exploits、Generic、Reconnaissance、Shellcode和Worms。非攻击事件被分类为Normal。
该数据集已分为训练数据和测试数据。训练集涉及175,341条记录,而测试集包含82,332条记录,涉及所有攻击类型和正常记录。攻击类型在训练和测试数据集中的分布如表2所示。
表2 各数据集中攻击类型的分布
| 攻击类型 | 训练数据集 | 测试数据集 | ||
|---|---|---|---|---|
| 数量 | 百分比(%) | 数量 | 百分比(%) | |
| Normal | 56,000 | 31.94 | 37,000 | 44.94 |
| Generic | 40,000 | 22.81 | 18,871 | 22.92 |
| Exploits | 33,393 | 19.04 | 11,132 | 13.52 |
| Fuzzers | 18,184 | 10.37 | 6,062 | 7.36 |
| DoS | 12,264 | 6.99 | 4,089 | 4.97 |
| Reconnaissance | 10,491 | 5.98 | 3,496 | 4.25 |
| Analysis | 2,000 | 1.14 | 677 | 0.82 |
| Backdoor | 1,746 | 1.00 | 583 | 0.71 |
| Shellcode | 1,133 | 0.65 | 378 | 0.46 |
| Worms | 130 | 0.07 | 44 | 0.05 |
该数据集包含45个特征,在附录A的表13中描述。目标特征是attack_cat。由于本研究的方法是多类预测,排除了label列。id列也被排除,因为它不包含相关信息。此外,分类特征已使用one-hot编码以确保适当的模型行为。因此,预测数据集采用了194个特征。
4.3 实验协议
4.3.1 MtL协议
为构建元数据集MD,进行了以下技术描述的若干FS实验:
-
第一个是方差阈值法。它要求特征具有预测目标特征的最小方差水平,理由是如果特征方差低,包含它的任何模型都将受到该事实的限制。在这种情况下,我们选择阈值来选择十个最佳特征。为确保跨单位特征的公平比较,我们在应用阈值前对所有特征应用了Min-Max缩放。
-
第二个是K-best选择法 。这包括根据特定指标或测试从可用特征中选择k个最佳特征。它支持三个比较特征的指标:ANOVA检验的F统计量、χ2\chi^2χ2统计量,以及与目标特征的互信息(MIC),所有这些都已使用。
-
最后是排列特征重要性,这是一种测量特征值排列后预测误差增加的方法。当特征值改变时模型预测发生实质性变化,该过程将特征记录为更重要。
对于这五种方法中的每一种,都选择了最佳10个特征的子集。此外,为构建MD,还考虑了研究文献中针对同一数据集报告的FS结果。
上述方法的FS性能通过简单的随机森林(RF)模型和极端梯度提升(XGB)进行测量。虽然我们认识到文献中存在更先进且预测性强的ML模型,但我们的战略选择完全符合我们工作的核心目标。目的不是达到峰值预测性能,而是验证和展示我们方法的有效性。使用RF和XGB为验证基于Meta-ARM的FS方法提供了坚实、透明的基础。与更复杂的模型相比,这些模型的相对简单性和稳健性确保任何性能提升都直接归因于所选特征的质量,而非所用ML模型的复杂度。因此,我们也没有优化ML模型的超参数,而是使用了默认配置。一旦证明了我们方法的稳健性,它就可以与任何其他最先进的ML模型一起应用。
未应用经典交叉验证,因为本研究的目的不是估计单一预测模型的绝对泛化误差,而是比较跨FS策略的相对性能差异。尽管如此,通过十次随机特征顺序排列控制了随机效应带来的变异性。引入这些排列是为了减轻学习算法中对特征顺序的敏感性,并稳定报告的性能值。为避免特定输入特征顺序引入的偏差,每个特征子集在多个输入变量的随机排列中进行评估。对于每个FS实验,第一个模型使用原始特征顺序进行训练,而后续运行应用Random(j).shuffle(feature_set),其中j表示迭代索引。为每个特征子集评估了总共十次随机排列。选择该数字作为计算成本与估计性能指标稳定性之间的合理折衷。聚合所得性能值以获得代表整个特征子集而非输入变量任意排序的估计值。
ML算法的结果使用众所周知的指标进行评估和比较:准确率 、MCC 和F1分数。第一个测量正确预测的比例,定义如下:
Accuracy=(TP+TN)(TP+TN+FP+FN)\text{Accuracy} = \frac{(TP + TN)}{(TP + TN + FP + FN)}Accuracy=(TP+TN+FP+FN)(TP+TN)
其中TP、TN、FP和FN分别表示真正例、真负例、假正例和假负例。MCC定义如下:
MCC=(TP⋅TN−FP⋅FN)(TP+FP)(TP+FN)(TN+FP)(TN+FN)\text{MCC} = \frac{(TP \cdot TN - FP \cdot FN)}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}MCC=(TP+FP)(TP+FN)(TN+FP)(TN+FN) (TP⋅TN−FP⋅FN)
选择它作为指标是因为在不平衡数据集中,它比准确率更具信息量。F1分数定义如下:
F1-score=2TP2TP+FP+FN\text{F1-score} = \frac{2TP}{2TP + FP + FN}F1-score=2TP+FP+FN2TP
我们使用宏平均F1分数,它通过独立计算每个类别的F1分数后取平均,为每个类别分配相等权重。这在入侵检测场景中尤为相关,其中少数攻击类别通常代表性不足但在操作上很重要。此外,为所有实验配置计算了混淆矩阵,以分析跨类别的分类行为。然而,由于评估的配置数量众多,我们仅在敏感性和特异性方面包含了其信息内容的摘要,直接从混淆矩阵的条目派生。敏感性(也称为召回率)测量正确识别的正实例比例。特异性测量正确识别的负案例比例。
基于上述分析,我们构建元数据集。在MD中,每行代表所描述FS方法的应用。因此,行是二进制向量x∈{0,1}194x \in \{0,1\}^{194}x∈{0,1}194,其中1表示该特定元示例中选择了特征,0表示未选择。添加了一额外列:使用10次随机排列获得的平均准确率。这样,MD有13行和195列。
元数据集(13个配置 × 194个特征指示器)捕获描述不同FS过程的元特征,而非原始数据样本。因此,元示例的数量对应于评估的FS方法数量。每个配置代表一个独立的学习情节;因此,元模型跨特征选择任务泛化,而非跨原始数据域泛化。这一视角完全符合MtL作为从学习经验中学习的定义。我们的目标不是训练预测性黑盒模型,而是通过多元回归和ARM提取可解释的元知识,当适当选择最小支持度阈值时,这两种方法在具有小事务集的设置中都是稳健的。ARM不估计参数,因此在传统统计意义上不会过拟合;相反,它识别即使在事务数量有限时仍保持稳定的频繁结构模式。如文献[43]所证明,当搜索空间大且提取的规则表现出高支持度和置信度时,ARM明确容忍小样本量。因此,特征与样本比不会使我们的方法在概念或方法论上无效。此外,ARM在二元存在/缺失向量上操作,传统统计约束不直接适用。多元线性回归模型仅用作特征重要性估计器,而非预测模型;因此,高特征与样本比不会损害模型有效性,因为回归不用于泛化或假设检验,而仅用作辅助、可解释的机制来指导后续基于ARM的知识提取。然后,不从回归本身推断泛化或样本外预测;仅利用相对系数大小进行可解释性。
在MD上应用多元线性回归模型,以性能指标为目标特征。选择系数最大的10个特征作为新FS集(F1),然后与先前考虑的选择比较性能。将FS F1\mathcal{F}_1F1添加到元数据集MD中,作为以下章节使用的新元数据集的基础。
4.3.2 Meta-ARM
在新的元数据集中,我们记为MD(ARM),与准确率相关的MD特征通过对该特征施加逻辑条件转换为名为high performance的新特征。因此,如果所选性能指标高于该FS的阈值,则high performance取值为1,否则为0。
为周全起见,考虑了所有类型的MD(ARM)(Accuracy > threshold)的唯一数据集。然后,将ARM应用于MD(ARM)(Accuracy > threshold),将每个实验作为事务,每个特征作为项目。在构建规则时,考虑了支持度最小为40%的频繁项集。从所有可能的MD(ARM)(Accuracy > threshold)中,根据ARM产生的规则数量选择最优MD(ARM)。从MD(ARM)\mathcal{MD}(\mathcal{ARM})MD(ARM)产生的规则集中,选择并评估了两组特征:
-
F2 :由出现在类型为{feature}⇒{high performance: performance metric > threshold}\{\text{feature}\} \Rightarrow \{\text{high performance: performance metric > threshold}\}{feature}⇒{high performance: performance metric > threshold}规则中的特征组成的集合,即单独暗示高性能的特征。这些是:sbytes、smean、dbytes、service_-。
-
F3 :包含出现在类型为{feature1,feature2,...}⇒{high performance: performance metric > threshold}\{\text{feature}_1, \text{feature}_2, \ldots\} \Rightarrow \{\text{high performance: performance metric > threshold}\}{feature1,feature2,...}⇒{high performance: performance metric > threshold}规则中的所有特征的集合,即单独或与其他组合暗示高性能的特征。注意F2⊆F3\mathcal{F}_2 \subseteq \mathcal{F}_3F2⊆F3。
然后使用RF和XGB算法比较F2\mathcal{F}_2F2和F3\mathcal{F}_3F3的性能与先前考虑的选择。
在性能驱动的ARM中,提取的规则数量是对后件施加约束的高度非线性函数。设R(t)\mathcal{R}(t)R(t)表示仅保留性能指标满足Accuracy ≥t\geq t≥t的配置时挖掘的关联规则集。随着阈值ttt的变化,规则集通常表现出三相行为:(i) 激增相 ,其中ttt的小幅降低触发∣R(t)∣|\mathcal{R}(t)|∣R(t)∣中的组合爆炸;(ii) 可解释相 ,其中获得紧凑但非平凡的规则集;(iii) 崩溃相,其中过度限制的阈值将规则集缩减为极少或零条规则。
由于所提框架的目标是按设计可解释,操作阈值τ\tauτ不是选择来优化预测性能,而是确保ARM在可解释相内操作。为形式化这一目标,我们引入可解释预算 RmaxR_{\max}Rmax,表示人类专家可合理检查和验证的最大规则数。因此,操作阈值定义为:
τ=min{t∈V:0<∣R(t)∣≤Rmax}\tau = \min\{t \in \mathcal{V}: 0 < |\mathcal{R}(t)| \leq R_{\max}\}τ=min{t∈V:0<∣R(t)∣≤Rmax}
其中V\mathcal{V}V表示ttt的离散搜索网格。这一定义明确说明τ\tauτ受规则复杂度而非性能最大化控制。为避免在整个性能范围内进行无约束搜索,对τ\tauτ的搜索锚定到基线方法的竞争性表现区域。设A={A1,...,An}\mathcal{A} = \{A_1, \ldots, A_n\}A={A1,...,An}表示在相同实验设置下通过基线特征选择方法获得的准确率集,设Amax=max(A)A_{\max} = \max(\mathcal{A})Amax=max(A)表示最佳基线准确率。我们将上尾U⊂A\mathcal{U} \subset \mathcal{A}U⊂A定义为[n/2][n/2][n/2]个最高准确率值。使用四分位距(IQR)量化该竞争机制内的离散度,IQRU=Q0.75(U)−Q0.25(U)\text{IQR}{\mathcal{U}} = \mathcal{Q}{0.75}(\mathcal{U}) - \mathcal{Q}{0.25}(\mathcal{U})IQRU=Q0.75(U)−Q0.25(U),其中Q0.25Q{0.25}Q0.25和Q0.75Q_{0.75}Q0.75分别表示第一和第三四分位数。IQR提供了对孤立异常值和小样本效应不稳健的变异性估计。然后计算初始参考阈值为t0=⌊(1−δ)Amax⌋0.01t_0 = \lfloor(1-\delta)A_{\max}\rfloor_{0.01}t0=⌊(1−δ)Amax⌋0.01,其中⌊⋅⌋0.01\lfloor\cdot\rfloor_{0.01}⌊⋅⌋0.01表示向下舍入到小数点后两位。容差参数δ\deltaδ固定为2.5%,这与上尾机制中观察到的离散度大小一致,如IQRU所测量的。具体而言,经验IQR值对应于AmaxA_{\max}Amax周围几个百分点的相对变化;表明低于该水平的差异在操作上没有意义。因此,δ\deltaδ被解释为实际等效边距,而非数据相关的调参。t0t_0t0的作用不是确定最终截止点,而是限定检查ARM相变的稳定和竞争性表现区域。最终操作阈值τ\tauτ在区间[t0,Amax][t_0, A_{\max}][t0,Amax]内选择,通过识别避免规则激增和规则崩溃的最小ttt值。
元数据集MD\mathcal{MD}MD和MD(ARM)\mathcal{MD}(\mathcal{ARM})MD(ARM)可在文献[44]中获得。对于ARM,使用了Python模块mlxtend.frequent_patterns,它实现了ARM的Apriori算法。
4.4 分析
对于性能指标的初步探索性分析,首先计算并分析了跨10次排列的平均值。但是,由于所提方法的主要输出------关联规则和所选特征子集------是通过ARM符号化和确定性导出的,统计显著性检验仅与跨排列的性能指标变异性相关,而与关联模式本身无关。使用每种基线特征选择方法获得的性能指标与所提Meta-ARM特征子集实现的性能指标之间进行了成对统计比较。使用的显著性水平为α=0.05\alpha = 0.05α=0.05。
此外,我们在技术细节章节明确说明的硬件条件下报告了基于回归的元分析和ARM的时间成本。
4.5 SAFE AI
对于SAFE AI特性的研究,使用了Python包safeaipackage。在这里,有一个用于衡量AI应用可持续性、准确性、公平性和可解释性的框架,将它们的值表示为理想情况的百分比:1表示最完美的行为,0表示最不理想的情况。文献[6]中提出的指标可应用于二元、序数或连续变量。由于我们的模型是多类分类器,我们通过将其编码为整数将预测变量转换为序数变量。具体而言,将多类输出转换为序数变量可能会施加不一定反映其语义、操作或安全相关关系的攻击类别之间的人为排序。因此,SAFE AI指标应被解释为评估相对排名稳定性和一致性,而非细粒度的跨异构攻击类别的语义公平性或可解释性。然后,SAFE AI分析用于比较验证,以确认所提Meta-ARM FS不会负面影响稳健性或可解释性维度,而非声称可信度指标的改进。我们使用RGA、RGR和RGE比较研究特征选择应用时预测模型的SAFE特性变化。由于数据的性质,我们不评估平等性度量。
4.6 技术细节
所有实验均在Intel® Core™ i5-8400 CPU @ 2.80GHz和16GB RAM上进行。所有编码实现均使用Python 3.12.7完成。特别是,使用库sklearn进行若干程序,包括RF模型。
5 Results
结果按提出的研究问题组织。
5.1 MtL能否在应用于特定数据集的FS时提高模型性能?
在表3中,我们包含了每种简单FS方法的选择以及研究文献中针对同一数据集提供的那些。
表3 每种方法选择的特征
| 选择方法 | 选择的特征子集 |
|---|---|
| 方差阈值 | sttl, dttl, swin, dwin, proto_tcp, proto_udp, service_-, service_dns, state_FIN, state_INT |
| K-best (ANOVA) | sttl, ct_srv_src, ct_dst_ltm, ct_src_dport_ltm, ct_dst_sport_ltm, ct_dst_src_ltm, ct_src_ltm, ct_srv_dst, proto_udp, service_dns |
| K-best (χ2\chi^2χ2) | sbytes, dbytes, rate, sload, dload, sinpkt, sjit, stcpb, dtcpb, response_body_len |
| K-best (MIC) | sbytes, dbytes, rate, sload, smean, dmean, ct_state_ttl, ct_dst_sport_ltm, ct_srv_dst |
| 排列特征重要性 | proto_udp, sttl, smean, sbytes, ct_srv_dst, ct_dst_src_ltm, service_-, ct_srv_src, dbytes, ct_src_ltm |
| [29] | ct_state_ttl, sttl, is_sm_ips_ports, ct_dst_src_ltm, sload, dload, is_ftp_login, ct_ftp_cmd, ct_dst_sport_ltm, ct_srv_src, ct_dst_ltm, sloss, dloss, ackdat, dbytes, spkts, dpkts, sbytes, rate, smean, dmean, synack, swin, dwin, stcpb, dtcpb, tcprtt, service, proto, state |
| [24] | smean, service, proto, state, sttl, spkts, dload, sloss, dloss, ct_dst_src_ltm, ct_src_ltm, ct_srv_dst |
| [24] | sbytes, sttl, smean, ct_dst_sport_ltm, service |
| [30] | sbytes, dbytes, sttl, dttl, sinpkt, swin, dtcpb, tcprtt, ackdat, dmean, response_body_len, ct_state_ttl, ct_src_dport_ltm, ct_dst_sport_ltm, ct_dst_src_ltm, ct_srv_dst, is_sm_ips_ports, service, state |
| [31] | ct_dst_sport_ltm, ct_dst_src_ltm, ct_srv_dst, is_sm_ips_ports, service, state, dur, sbytes, dbytes, sttl, dttl, sloss, dloss, spkts, dpkts, smean, dmean, ct_state_ttl, ct_srv_src, ct_dst_ltm, ct_src_dport_ltm, service, proto |
| [32] | djit, smean, sbytes, dtcpb, sttl, dmean, sinpkt, response_body_len, dbytes, dloss, sjit, ct_srv_dst, ct_flw_http_mthd, service, proto |
| [33] | sttl, ct_srv_dst, sbytes, smean, ct_state_ttl, sloss, synack, ct_dst_src_ltm, dmean, ct_srv_src, ct_dst_sport_ltm, dbytes, dloss, tcprtt, ct_src_dport_ltm, rate, service, proto, state |
| [34] | swin, dwin, sttl, dload, stcpb, dtcpb, dttl, ct_src_dport_ltm, ct_dst_sport_ltm, ct_dst_src_ltm, ct_srv_dst, ct_srv_src, dbytes, dloss, ct_src_ltm, ct_dst_ltm, dmean, sloss, sjit, rate |
5.1.1 RF结果
在表4中,我们包含了用每种FS方法构建的RF的性能指标。
表4 RF考虑的各种FS获得的性能
| 特征子集 | 准确率 | MCC | 宏平均F1分数 | 召回率 | 特异性 | 特征数量(编码后) |
|---|---|---|---|---|---|---|
| 方差阈值 | 0.6523 | 0.5877 | 0.2668 | 0.3143 | 0.9614 | 10 (10) |
| 排列特征重要性 | 0.7554 | 0.6805 | 0.5146 | 0.5553 | 0.9715 | 10 (10) |
| K-best (ANOVA) | 0.6568 | 0.5628 | 0.3008 | 0.3222 | 0.9601 | 10 (10) |
| K-best (χ2\chi^2χ2) | 0.7651 | 0.6923 | 0.4300 | 0.4555 | 0.9725 | 10 (10) |
| K-best (MIC) | 0.7692 | 0.6987 | 0.5074 | 0.5193 | 0.9732 | 10 (10) |
| [29] | 0.7486 | 0.6762 | 0.4593 | 0.4867 | 0.9718 | 30 (176) |
| [24] | 0.6248 | 0.5124 | 0.3202 | 0.3417 | 0.9556 | 8 (8) |
| [24] | 0.7732 | 0.7031 | 0.5220 | 0.5612 | 0.9731 | 5 (17) |
| [30] | 0.7646 | 0.6965 | 0.4687 | 0.4998 | 0.9733 | 19 (35) |
| [31] | 0.7598 | 0.6897 | 0.5013 | 0.5332 | 0.9730 | 22 (164) |
| [32] | 0.7679 | 0.6959 | 0.5084 | 0.5158 | 0.9733 | 15 (157) |
| [33] | 0.7599 | 0.6899 | 0.4974 | 0.5265 | 0.9730 | 19 (165) |
| [34] | 0.6774 | 0.5870 | 0.3647 | 0.3763 | 0.9634 | 20 (20) |
注:上标1表示该指标达到的最佳值
在使用表3和表4信息构建的数据集MD上,我们应用了多线性回归模型,使用系数最大的10个特征。在这种情况下,F1=[stt,service−,smean,sbytes,ct_srv_src,dbytes,rate,sload,stcpb,ct_state_ttl]\mathcal{F}1 = [\text{stt}, \text{service}-, \text{smean}, \text{sbytes}, \text{ct\_srv\_src}, \text{dbytes}, \text{rate}, \text{sload}, \text{stcpb}, \text{ct\_state\_ttl}]F1=[stt,service−,smean,sbytes,ct_srv_src,dbytes,rate,sload,stcpb,ct_state_ttl]。它达到平均准确率0.7747,平均MCC 0.7042,平均F1分数0.5247,平均召回率0.5372,平均特异性0.9736。因此,它在大多数指标上排名最佳,仅次于文献[24],同时在使用因子特征编码时考虑使用更少的特征。
5.1.2 XGB结果
在表5中,我们包含了用每种FS方法构建的XGB的性能指标。
表5 XGB模型考虑的各种FS获得的性能
| 特征子集 | 准确率 | MCC | 宏平均F1分数 | 召回率 | 特异性 | 特征数量(编码后) |
|---|---|---|---|---|---|---|
| 方差阈值 | 0.6523 | 0.5877 | 0.2668 | 0.3142 | 0.9614 | 10 (10) |
| 排列特征重要性 | 0.7672 | 0.6957 | 0.5187 | 0.5622 | 0.9731 | 10 (10) |
| K-best (ANOVA) | 0.5966 | 0.4982 | 0.2795 | 0.2990 | 0.9540 | 10 (10) |
| K-best (χ2\chi^2χ2) | 0.7681 | 0.6969 | 0.4244 | 0.4388 | 0.9727 | 10 (10) |
| K-best (MIC) | 0.7718 | 0.7036 | 0.5008 | 0.5209 | 0.9734 | 10 (10) |
| [29] | 0.7659 | 0.6965 | 0.5010 | 0.5407 | 0.9735 | 30 (176) |
| [24] | 0.6430 | 0.5470 | 0.3239 | 0.3550 | 0.9591 | 8 (8) |
| [24] | 0.7681 | 0.6960 | 0.4880 | 0.5019 | 0.9724 | 5 (17) |
| [30] | 0.7715 | 0.7043 | 0.4873 | 0.5227 | 0.9740 | 19 (35) |
| [31] | 0.7747 | 0.7083 | 0.5271 | 0.5762 | 0.9742 | 22 (164) |
| [32] | 0.7781 | 0.7104 | 0.5250 | 0.5447 | 0.9740 | 15 (157) |
| [33] | 0.7737 | 0.7063 | 0.5278 | 0.5687 | 0.9740 | 19 (165) |
| [34] | 0.6695 | 0.5755 | 0.3517 | 0.3709 | 0.9618 | 20 (20) |
注:上标1表示该指标达到的最佳值
在使用表3和表5信息构建的数据集上,我们再次应用了多线性回归模型,使用系数最大的10个特征。在这种情况下,F1=[ct_srv_src,ct_state_ttl,dbytes,dpkts,rate,sbytes,service−,sload,smean,stcpb]\mathcal{F}_1 = [\text{ct\_srv\_src}, \text{ct\_state\ttl}, \text{dbytes}, \text{dpkts}, \text{rate}, \text{sbytes}, \text{service}-, \text{sload}, \text{smean}, \text{stcpb}]F1=[ct_srv_src,ct_state_ttl,dbytes,dpkts,rate,sbytes,service−,sload,smean,stcpb]。当在XGB模型上测试时,该选择达到平均准确率0.7771,平均MCC 0.7082,平均F1分数0.5022,平均召回率0.5165,平均特异性0.9737。因此,它在准确率上排名第二,仅次于文献[32],同时使用更少的特征。
5.2 是否可能将Meta-ARM用于FS?如果能,能否提高性能?
除了元知识对特征与表现良好模型之间直接关系的价值外,我们的目标之一是看看是否可以从ARM获得的规则中导出高性能的FS。
5.2.1 带RF的Meta-ARM
对于RF,最大基线准确率为AmaxRF=0.7732A_{\max}^{\text{RF}} = 0.7732AmaxRF=0.7732,产生t0RF=⌊0.975×0.7732⌋0.01=0.75t_0^{\text{RF}} = \lfloor 0.975 \times 0.7732 \rfloor_{0.01} = 0.75t0RF=⌊0.975×0.7732⌋0.01=0.75。低于0.75的阈值引发具有16420条规则的激增相,而t=0.75t = 0.75t=0.75产生由27条稳定规则组成的可解释机制。t≥0.77t \geq 0.77t≥0.77的阈值进入崩溃相,将规则集减少为一条或零条规则。因此,操作阈值设置为τRF=0.75\tau^{\text{RF}} = 0.75τRF=0.75。然后,ARM提取如表6所示的27条规则。
表6 后件为⇒准确率>0.75的规则前件,按RF的提升度降序排列
| 前件 | 前件支持度 | 规则支持度 | 置信度 | 提升度 |
|---|---|---|---|---|
| sbytes | 0.6429 | 0.6429 | 1.0000 | 1.5556 |
| sbytes, dbytes | 0.5714 | 0.5714 | 1.0000 | 1.5556 |
| sbytes, service_-, sttl | 0.5000 | 0.5000 | 1.0000 | 1.5556 |
| sbytes, service_- | 0.5000 | 0.5000 | 1.0000 | 1.5556 |
| sbytes, sttl | 0.5000 | 0.5000 | 1.0000 | 1.5556 |
| smean, sbytes | 0.5000 | 0.5000 | 1.0000 | 1.5556 |
| service_-, dbytes, sbytes, sttl | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| service_-, smean, sbytes, sttl | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| smean, sbytes, service_- | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| service_-, sbytes, dbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| smean, sbytes, dbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| ct_srv_dst, sbytes, dbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| sttl, sbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| smean, sbytes, sttl | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| ct_srv_dst, sbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| smean | 0.5714 | 0.5000 | 0.8750 | 1.3611 |
| sttl, service_-, dbytes | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| smean, service_-, sttl | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| service_-, dbytes | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| smean, service_- | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| smean, dbytes | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| smean, sttl | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| dbytes | 0.7143 | 0.5714 | 0.8000 | 1.2444 |
| service_-, sttl | 0.6429 | 0.5000 | 0.7778 | 1.2099 |
| service_- | 0.6429 | 0.5000 | 0.7778 | 1.2099 |
| ct_srv_dst, dbytes | 0.5714 | 0.4286 | 0.7500 | 1.1667 |
| sttl, dbytes | 0.5714 | 0.4286 | 0.7500 | 1.1667 |
此后,从规则中提取了两个FS:
- F2 :由出现在类型为{feature}⇒{high performance: performance metric > threshold}\{\text{feature}\} \Rightarrow \{\text{high performance: performance metric > threshold}\}{feature}⇒{high performance: performance metric > threshold}规则中的特征组成的集合。这些是:sbytes、smean、dbytes、service_-。
- F3 :包含出现在类型为{feature1,feature2,...}⇒{high performance: performance metric > threshold}\{\text{feature}_1, \text{feature}2, \ldots\} \Rightarrow \{\text{high performance: performance metric > threshold}\}{feature1,feature2,...}⇒{high performance: performance metric > threshold}规则中的所有特征的集合。这些是:sbytes、dbytes、ct_srv_src、smean、service-、sttl。
两种特征配置都使用RF模型进行了评估。F2\mathcal{F}_2F2达到准确率0.7766,MCC 0.7064,F1分数0.5337,召回率0.5555,特异性0.9735,仅用四个特征,而F3\mathcal{F}_3F3达到准确率0.7736,MCC 0.7030,F1分数0.5539,召回率0.5758,特异性0.9735。F2在所研究的所有选择中实现了最佳准确率和MCC,而F3实现了最佳F1分数和召回率。
对于每个指标,对实验重复获得的分布应用了双侧Mann-Whitney U检验。总共进行了195对比较,对应于在五个指标和三个提出的特征子集上评估的13种基线特征选择方法。在195次比较中,190次观察到有利于所提Fi\mathcal{F}_iFi子集的统计显著差异。一次比较,对应于在使用排列特征重要性时F1获得的召回率指标,未显示统计显著差异(p=0.104)。此外,四次统计显著比较有利于基线方法:将F3与文献[24]提出的方法比较时获得的MCC,以及同一基线获得的F2和F3的召回率值,以及在使用排列特征重要性时F1获得的召回率。这些孤立案例应谨慎解释,因为文献[24]提出的特征子集涉及大量特征,这自然可能导致更高的召回率导向指标,代价是增加模型复杂度。
此外,在表7中,我们比较了使用我们的方法获得的FS的统计结果。
表7 RF模型上我们各种选择之间Mann-Whitney U检验的P值
| 选择方法 | 准确率 | MCC | F1分数 | 召回率 | 特异性 |
|---|---|---|---|---|---|
| F1 vs F2 | <0.001 | <0.001 | <0.001 | <0.001 | 0.006 |
| F1 vs F3 | 0.001 | 0.001 | <0.001 | <0.001 | 0.002 |
| F2 vs F3 | <0.001 | <0.001 | <0.001 | <0.001 | 0.212 |
注:值上标为两个比较中表现最佳的Fi的索引
总体而言,F2在全球性能平衡方面涌现为最平衡的子集,而F3\mathcal{F}_3F3始终优先考虑敏感性相关指标,F1强调特异性和保守分类行为。
5.2.2 带XGB的Meta-ARM
对于XGB,最大基线准确率为AmaxXGB=0.7781A_{\max}^{\text{XGB}} = 0.7781AmaxXGB=0.7781,产生t0XGB=⌊0.975×0.7781⌋0.01=0.76t_0^{\text{XGB}} = \lfloor 0.975 \times 0.7781 \rfloor_{0.01} = 0.76t0XGB=⌊0.975×0.7781⌋0.01=0.76。∣R(t)∣|\mathcal{R}(t)|∣R(t)∣的细粒度分析揭示相同的三相结构:[0.760,0.765][0.760, 0.765][0.760,0.765]中的阈值对应具有16414条规则的激增相;[0.7660,0.7680][0.7660, 0.7680][0.7660,0.7680]区间中的阈值定义具有19条规则的可解释相,重现了RF下获得的相同F2\mathcal{F}_2F2和F3\mathcal{F}_3F3特征选择;[0.7682,0.7714][0.7682, 0.7714][0.7682,0.7714]中的阈值产生仅有三条规则的稀疏机制;t≥0.7716t \geq 0.7716t≥0.7716的阈值进入崩溃相。因此,操作阈值选择为τXGB=0.7660\tau^{\text{XGB}} = 0.7660τXGB=0.7660,这是确保可解释性而无规则激增的t0XGBt_0^{\text{XGB}}t0XGB之上的最小值。所得规则包含在表8中。
表8 后件为⇒准确率>0.767的规则前件,按XGB的提升度降序排列
| 前件 | 前件支持度 | 规则支持度 | 置信度 | 提升度 |
|---|---|---|---|---|
| sbytes | 0.6429 | 0.6429 | 1.0000 | 1.5556 |
| sbytes, dbytes | 0.5714 | 0.5714 | 1.0000 | 1.5556 |
| service_-, sbytes | 0.5000 | 0.5000 | 1.0000 | 1.5556 |
| sbytes, smean | 0.5000 | 0.5000 | 1.0000 | 1.5556 |
| ct_srv_dst, sbytes, dbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| service_-, sbytes, sttl | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| sbytes, dbytes, smean | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| service_-, sbytes, smean | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| service_-, sbytes, dbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| ct_srv_dst, sbytes | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| sbytes, sttl | 0.4286 | 0.4286 | 1.0000 | 1.5556 |
| smean | 0.5714 | 0.5000 | 0.8750 | 1.3611 |
| service_-, dbytes | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| dbytes, smean | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| service_-, smean | 0.5000 | 0.4286 | 0.8571 | 1.3333 |
| dbytes | 0.7143 | 0.5714 | 0.8000 | 1.2444 |
| service_- | 0.6429 | 0.5000 | 0.7778 | 1.2099 |
| service_-, sttl | 0.5714 | 0.4286 | 0.7500 | 1.1667 |
| ct_srv_dst, dbytes | 0.5714 | 0.4286 | 0.7500 | 1.1667 |
选择了两组特征:
- F2 :由出现在类型为{feature}⇒{high performance: performance metric > threshold}\{\text{feature}\} \Rightarrow \{\text{high performance: performance metric > threshold}\}{feature}⇒{high performance: performance metric > threshold}规则中的特征组成的集合。这些是:sbytes、smean、dbytes、service_-。
- F3 :包含出现在类型为{feature1,feature2,...}⇒{high performance: performance metric > threshold}\{\text{feature}_1, \text{feature}2, \ldots\} \Rightarrow \{\text{high performance: performance metric > threshold}\}{feature1,feature2,...}⇒{high performance: performance metric > threshold}规则中的所有特征的集合。这些是:sbytes、dbytes、ct_srv_dst、smean、service-、sttl。
值得注意的是,这些是使用RF时该程序产生的相同选择。
F2达到准确率0.7831,MCC 0.7117,F1分数0.4945,召回率0.4949,特异性0.9738,仅用四个特征,而F3\mathcal{F}_3F3达到准确率0.7825,MCC 0.7151,F1分数0.5398,召回率0.5619,特异性0.9743。F2实现了所有考虑中的最高准确率,F3实现了最高MCC、F1分数和召回率。
当考虑XGB分类器时,成对统计分析揭示了与RF案例相比,所提特征子集普遍优势之外的大量例外。在总共进行的195对比较中,四次在基线特征选择方法与相应Fi\mathcal{F}_iFi子集之间未表现出统计显著差异。具体而言,在将K-best (MIC)与F1\mathcal{F}_1F1比较时F1分数、在使用排列特征重要性时获得的F3召回率,以及在将F2\mathcal{F}_2F2与文献[30]和[32]提出的方法比较时特异性指标未观察到显著差异。在这些案例中,基线方法与所提特征子集的性能可视为统计等效。除了这些非显著比较之外,分析确定了18种差异统计显著但有利于基线特征选择方法而非所提Fi\mathcal{F}_iFi子集的案例。这些损失在指标或方法上分布不均匀,但主要集中在召回率和F1分数上,主要产生于与基于过滤的方法(如K-best (MIC)和排列特征重要性)以及几种基于文献的特征选择方法的比较中。受影响的案例主要涉及F1和F2\mathcal{F}_2F2子集,而F3\mathcal{F}_3F3显示出相对较少的显著损失。尽管存在这些例外,所提特征子集在195次比较中的173次(约89%)中优于基线方法,这证实了基于Meta-ARM的选择在与XGB结合时仍保持高度竞争力。这一行为可根据梯度提升模型的归纳偏差来解释。由于XGB在利用大且可能冗余的特征空间方面特别有效,保留更多特征的基线方法可能在孤立案例中实现更优的召回率或F1分数。相比之下,所提Fi\mathcal{F}_iFi子集设计为在实验配置中紧凑且稳定,倾向于简约性和可解释性而非最大特征覆盖。因此,XGB中观察到的损失反映了面向敏感性的性能与特征紧凑性之间的显式和预期权衡,而非所提基于Meta-ARM的特征选择框架的局限。
所提特征子集与XGB模型结合时的成对比较见表9。这些在所有评估指标上揭示了统计显著的性能层次结构。总体而言,这些结果表明,当与XGB一起使用时,F3\mathcal{F}_3F3提供了最稳健和始终优越的性能,特别是对于敏感性相关和平衡评估指标,而F1\mathcal{F}_1F1和F2\mathcal{F}_2F2根据感兴趣的指标表现出更专业的行为。
表9 XGB模型上我们各种选择之间Mann-Whitney U检验的P值
| 选择方法 | 准确率 | MCC | F1分数 | 召回率 | 特异性 |
|---|---|---|---|---|---|
| F1 vs F2 | <0.001 | <0.001 | <0.001 | <0.001 | 0.004 |
| F1 vs F3 | <0.001 | <0.001 | <0.001 | <0.001 | <0.001 |
| F2 vs F3 | 0.006 | <0.001 | <0.001 | <0.001 | <0.001 |
注:值上标为两个比较中表现最佳的Fi的索引
5.3 这些方法是否有助于构建使用它们的XAI模型?
通过我们的Meta-ARM协议识别特征配置不仅仅是数值结果;它提供安全分析师可直接解释的语义有意义见解。这促进了对使特征子集有效的潜在模式的更深入理解,从而增强对AI系统的信任。尽管RF和XGB存在固有差异,但Meta-ARM过程为两种模型识别了相同的核心特征集,F2\mathcal{F}_2F2和F3\mathcal{F}_3F3。在选定的可解释阈值提取的规则重现了相同的核心特征集F2\mathcal{F}_2F2和F3\mathcal{F}3F3。主导特征是sbytes、dbytes、smean、service-、sttl和ct_srv_src,具有相同的组合和高置信度。它们可解释如下。
sbytes 指源到目的传输字节数。dbytes指目的到源传输字节数。某些攻击(如Exploits)的目标是提取信息,因此高dbytes值可能表明正在发生这种情况。另一方面,非常低的dbytes信息也可能表明异常活动。与流量体积相关的特征,如sbytes和dbytes,始终与高影响攻击相关。
同时,smean是源发送的流数据包大小的平均值。平均数据包大小的变化为检测侦察和探测活动提供了判别力,这些活动通常表现出独特的数据包化策略和低容量、结构化流量模式。大于通常的流数据包可能旨在使系统过载或试图通过向其提供大量随机数据使其故障来使其失效,即Fuzzer攻击。
关于service_-,它是一个布尔特征,指示利用HTTP和FTP等标准协议的最小服务利用。当观察到很少或没有服务交互时,它等于1,否则为0。由于使用服务器意味着连接遵循特定结构和规则集,不使用服务可能是攻击的指标。这一特征对于识别复杂的攻击类别(如漏洞利用和后门)尤为重要,这些攻击通常在明确的服务配置文件之外操作。service_-特征的反复选择进一步突显了模型对现代攻击常用规避行为的敏感性,如使用非标准端口、加密隧道或协议混淆技术来绕过基于签名的检测系统。从可解释性的角度来看,模型对这一特征的重点至关重要,表明它正在学习识别与规避和潜在命令控制通信相关的行为,这对识别复杂威胁至关重要。
此外,捕获时间和路由特征的特征,如sttl,反映了数据包寿命和路由路径的偏差。sttl是数据包的源生存时间值。虽然最初是限制数据包寿命的网络层机制,但ttl值也可反映底层操作系统或路由路径的结构。ttl中的异常通常与欺骗、横向移动、操纵或异常路由行为相关。模型对sttl的关注可被解释为其识别偏离预期路由规范行为的方式,这是安全分析师在解释低级别网络异常时也使用的行为。此外,此类行为通常在高级攻击阶段观察到,包括内部侦察和枢纽转移。
此外,基于聚合的特征,如ct_srv_src,计算在当前连接之前结束的100个连接中具有相同服务和源地址的连接数。高值表示多个快速、短连接,如通用攻击或DoS攻击中存在的那些。此外,ct_srv_src捕获在短时间内与相同目标服务的重复交互,与扫描、暴力尝试和服务目标侦察活动对齐的模式。该特征的高值可能表明针对特定服务的扫描活动或暴力尝试。其作为相关特征的包含表明,模型不仅反应于个体数据包或流,而且识别更高级别的行为趋势,正是人类分析师用于情境化威胁的聚合见解类型。
更进一步增加价值的是,ARM已识别出这些特征在组合时形成与高模型性能显著相关的预测模式。这不是一个平凡的结果。虽然每个特征都有个体解释力,但ARM已揭示它们的联合存在作为特定项集与高性能显著相关。通过从F2\mathcal{F}2F2(单变量重要性)过渡到F3\mathcal{F}3F3(多变量交互),Meta-ARM为安全分析师提供了结构化的路线图。它确保所得的IDS不仅准确,而且基于可观察的网络现象。例如,规则{sbytes, service−,sttl}⇒{High Performance}\{\text{sbytes, service}-, \text{sttl}\} \Rightarrow \{\text{High Performance}\}{sbytes, service−,sttl}⇒{High Performance}表明,不仅异常sbytes计数重要,而且它与未知service-和不规则sttl值一起出现。这使我们能够提取可解释的复合规则,如"如果sbytes高、service_-存在且sttl低,则高性能"。类似地,规则{sbytes, dbytes}⇒{High Performance}\{\text{sbytes, dbytes}\} \Rightarrow \{\text{High Performance}\}{sbytes, dbytes}⇒{High Performance}突显,发送和接收字节组合作为强模型性能的可靠预测器,表明性能提升不仅来自检测体积异常,而且来自识别非对称或协调通信流。结合sbytes、service_-和sttl的更复杂规则提供了甚至更丰富的行为解释。高源字节数,连同缺乏公认服务,暗示在标准应用协议之外发生的激进或持续通信。同时,不规则sttl值指示异常路由路径或潜在欺骗。这三个特征的共现对应于同时表现出高流量强度、规避通信策略和异常网络层特征的复杂攻击行为。此类模式通常在高级持续威胁、漏洞利用活动和命令控制活动中观察到,攻击者故意结合体积、隐蔽和路由操纵。类似地,结合smean与sbytes或dbytes的规则捕获数据包化策略与流量体积之间的交互。与升高的字节数一起出现的大或高度可变的数据包大小可能表明Fuzzer攻击或协议操纵。相比之下,与适度流量水平配对的结构化低容量数据包更典型于侦察和探测阶段。这些组合允许模型区分暴力流量泛滥和更微妙的准备攻击阶段,为分析师提供关于攻击者意图的可解释线索。
所提Meta-ARM框架支持的可解释性超越了理解为何特定特征子集对给定模型产生高预测性能。通过明确识别哪些个体变量,更重要的是,哪些变量组合与强性能系统相关,该框架为数据收集和系统设计提供了可操作的指导。不是将FS视为纯粹的模型中心优化步骤,这一视角使从业者能够将资源集中在可靠捕获和监控已知信息最丰富的流量特征上。实际上,理解特定组合的流量体积、服务使用、路由异常和聚合模式驱动高性能,使安全团队能够相应地优先化传感器放置、日志策略和特征工程工作。这将可解释性的角色从被动解释工具转变为主动指导数据获取和运营决策的机制。
另一方面,为XGB模型观察到的可解释性一致模式证实,Meta-ARM框架识别稳定的、基于行为的特征交互,这些交互在不同归纳偏差的分类器中泛化。虽然XGB可能在一些面向敏感性的指标上受益于更丰富的特征表示,但所选特征子集保留了与具体入侵行为和已知攻击类别的清晰直接映射。因此,所提方法通过不仅突出相关属性,而且通过显式将模型性能与可解释、安全相关的行为模式联系起来,支持可解释的特征选择。
5.4 使用Meta-ARM进行FS是否会影响模型的SAFE AI特性?
本研究中SAFE AI评估的目的不是展示在可信度指标方面的优越性,而是验证应用Meta-ARM进行FS是否不会降低关键SAFE维度。
表10 按选择平均的SAFE AI指标
| FS方法 | RGA RF | RGA XGB | RGE RF | RGE XGB | RGR RF | RGR XGB |
|---|---|---|---|---|---|---|
| 最佳简单技术选择(K-best (MIC)) | 0.9177 | 0.9179 | 0.5026 | 0.5218 | 0.4792 | 0.4589 |
| 文献最佳选择 | 0.9249 | 0.9177 | 0.4976 | 0.5682 | 0.4852 | 0.4257 |
| F1 | 0.9184 | 0.9197 | 0.5317 | 0.5172 | 0.4817 | 0.4278 |
| F2 | 0.9226 | 0.9226 | 0.5374 | 0.5975 | 0.4582 | 0.3386 |
| F3 | 0.9179 | 0.9210 | 0.4799 | 0.5069 | 0.4771 | 0.4508 |
| 所有特征 | 0.9194 | 0.9197 | 0.5048 | 0.5401 | 0.4856 | 0.4572 |
在表10中,我们可以看到最佳FS的SAFE AI平均值,与文献最佳选择和方法相比。RGA的行为类似于准确率和MCC,尽管它给出更高的值。
从上述结果来看,所有评估模型在RGA、RGR和RGE值上表现相当。这一结果本身有意义,因为它证明了在FS阶段提高可解释性和性能不会以降低稳健性或可解释性为代价。这种中性是负责任AI研究中的相关且积极的成果。
5.5 时间复杂度
表11显示了训练和测试每个模型所需的时间(以秒为单位),在10次运行中平均。如预期的那样,特征数量较少的FS,如F2\mathcal{F}_2F2和F3\mathcal{F}_3F3,计算负担较小。
表11 每个模型平均时间(秒)。注意为构建数据库,每个模型运行10次
| RF训练 | RF测试 | XGB训练 | XGB测试 | |
|---|---|---|---|---|
| 方差阈值 | 3.4064 | 0.4108 | 3.8536 | 0.2000 |
| 排列特征重要性 | 11.2422 | 0.8969 | 4.1760 | 0.2379 |
| K-best (ANOVA) | 7.6194 | 0.7797 | 3.9303 | 0.2362 |
| K-best (χ2\chi^2χ2) | 35.3017 | 0.9969 | 4.3437 | 0.2624 |
| K-best (MIC) | 23.4767 | 0.9999 | 4.2077 | 0.2439 |
| [29] | 27.0485 | 1.3484 | 14.5988 | 0.2906 |
| [24] | 12.1128 | 1.0579 | 3.8999 | 0.2406 |
| [24] | 7.5022 | 0.7609 | 4.3701 | 0.2453 |
| [30] | 17.1183 | 1.0442 | 5.7480 | 0.2515 |
| [31] | 24.0039 | 1.2827 | 13.7236 | 0.2843 |
| [32] | 25.4960 | 1.3061 | 13.0494 | 0.2999 |
| [33] | 23.6352 | 1.2957 | 14.0120 | 0.2906 |
| [34] | 23.0332 | 1.1187 | 5.1001 | 0.2515 |
| F1 | 19.5695 | 0.9341 | 4.1849 | 0.2531 |
| F2 | 9.0798 | 0.7704 | 3.6704 | 0.2421 |
| F3 | 8.5832 | 0.8123 | 3.7484 | 0.2453 |
表12显示了每个模型Fi计算步骤的平均时间(秒),在10次运行中平均。最大的计算成本是规则提取过程。
表12 Fi计算步骤的平均时间(秒)
| 模型 | 多元线性回归 | ARM项集 | ARM规则计算 | ARM规则选择 |
|---|---|---|---|---|
| RF | 0.0047 | 0.2140 | 41.4362 | 19.2229 |
| XGB | 0.0047 | 0.5674 | 40.7134 | 19.3454 |
6 Conclusions
在这项工作中,我们通过证明模型的透明性可以在ML管道的最早阶段(特征选择)得到根本改进,解决了XAI领域的关键问题。我们的方法利用MtL将复杂的FS问题转化为ARM任务。通过分析元数据库中的特征配置和相应性能指标,我们可以主动识别不仅具有高度预测性而且可解释的特征集。
在这一背景下应用ARM的最重要贡献是其能够作为XAI的主动策略。传统的FS方法通常仅关注统计指标来降低维度,创建难以解释的抽象特征。相比之下,ARM驱动的FS作为可解释的特征工程运作,通过识别或构建原始属性的逻辑组合,直接映射到安全分析师常见的语义有意义模式,如协议标志或流量流特征。通过选择统计显著且固有可解释的特征,ARM在甚至训练ML模型之前就将特征空间与透明度目标对齐。此外,这超越了假设特征独立性或孤立评估特征的传统FS方法。这一点对XAI至关重要,因为解释不是单一特征,而是特征之间的关系,这与人类专家推理复杂网络安全模式的方式更紧密对齐。其影响在网络安全中很强大,其中建立在仅几个易于理解的特征上的模型的固有透明性有助于快速人类分析和决策,从而提高信任度并加速面对安全漏洞时的响应时间。
最后,我们承认本研究的某些局限性。尽管元数据集的减少规模不构成方法论局限,但依赖基于回归的特征排名和ARM而非训练预测性元学习模型的所提方法可能仍限制发现的泛化性。此外,该方法已使用单一网络安全数据集验证,这可能限制结论的范围。这些方面促使未来工作扩展元数据库并验证所提Meta-ARM框架。
未来工作可能包括将这一技术应用于其他网络安全数据集,并使用额外的预测模型来改进性能指标。此外,我们计划对提出的Meta-ARM框架与既定FS方法在可比实验条件下进行系统计算基准测试,以评估其可扩展性和运行时效率。
附录A UNSW-NB15数据集中所有特征的描述
在表13中,给出了UNSW-NB15数据集中的所有特征。
表13 UNSW-NB15中的特征描述
| 名称 | 数据类型 | 类型 | 描述 |
|---|---|---|---|
| id | 整数 | Id | 唯一识别号 |
| dur | 浮点数 | 基础 | 行总持续时间 |
| proto | 分类 | 流 | 协议类型 |
| service | 分类 | 基础 | 如http、ftp、smtp、ssh、dns和ftp-data |
| state | 分类 | 基础 | 状态及其依赖协议 |
| spkts | 整数 | 基础 | 源到目的数据包计数 |
| dpkts | 整数 | 基础 | 目的到源数据包计数 |
| sbytes | 整数 | 基础 | 源到目的字节数 |
| dbytes | 整数 | 基础 | 目的到源字节数 |
| rate | 浮点数 | 基础 | 每秒数据包数 |
| sttl | 整数 | 基础 | 源到目的生存时间 |
| dttl | 整数 | 基础 | 目的到源生存时间 |
| sload | 浮点数 | 基础 | 每秒源比特数 |
| dload | 浮点数 | 基础 | 每秒目的比特数 |
| sloss | 整数 | 基础 | 源重传或丢弃的数据包 |
| dloss | 整数 | 基础 | 目的重传或丢弃的数据包 |
| sinpkt | 浮点数 | 时间 | 源数据包间到达时间 |
| dinpkt | 浮点数 | 时间 | 目的数据包间到达时间 |
| sjit | 浮点数 | 时间 | 源抖动 |
| djit | 浮点数 | 时间 | 目的抖动 |
| swin | 整数 | 内容 | 源TCP窗口通告值 |
| stcpb | 整数 | 内容 | 源TCP基础序列号 |
| dtcpb | 整数 | 内容 | 目的TCP基础序列号 |
| dwin | 整数 | 内容 | 目的TCP窗口通告值 |
| tcprtt | 浮点数 | 时间 | 设置往返时间,synack+ackdat |
| synack | 浮点数 | 时间 | SYN和SYN_ACK数据包之间的时间 |
| ackdat | 浮点数 | 时间 | SYN_ACK和ACK数据包之间的时间 |
| smean | 整数 | 内容 | 源ip发送的数据包大小均值 |
| dmean | 整数 | 内容 | 目的ip发送的数据包大小均值 |
| trans_depth | 整数 | 内容 | http请求/响应事务的连接 |
| response_body_len | 整数 | 内容 | 从http传输的数据内容大小 |
| ct_srv_src | 整数 | 生成 | 100行中相同服务和源ip的行数 |
| ct_state_ttl | 整数 | 生成 | 根据sttl和dttl值的每种状态数量 |
| ct_dst_ltm | 整数 | 生成 | 100行中相同目的ip的行数 |
| ct_src_dport_ltm | 整数 | 生成 | 100行中相同源ip和目的端口的行数 |
| ct_dst_sport_ltm | 整数 | 生成 | 100行中相同目的ip和源端口的行数 |
| ct_dst_src_ltm | 整数 | 生成 | 100行中相同源ip和目的ip的行数 |
| is_ftp_login | 整数 | 生成 | 如果ftp会话由用户和密码访问则为1,否则为0 |
| ct_ftp_cmd | 整数 | 生成 | ftp会话中有命令的流数 |
| ct_flw_http_mthd | 整数 | 生成 | http服务中如Get和Post的方法数 |
| ct_src_ltm | 整数 | 生成 | 100行中源ip的行数 |
| ct_srv_dst | 整数 | 生成 | 100行中相同服务和目的ip的行数 |
| is_sm_ips_ports | 整数 | 生成 | 如果源ip=目的ip且源端口=目的端口则为1,否则为0 |
| attack_cat | 分类 | 标签 | 每个攻击类别的名称 |
| label | 整数 | 标签 | 正常为0,攻击记录为1 |
1由于该特征的类型,应用了One Hot编码,产生几个二元特征
致谢
这项研究是"网络安全人工智能模型的数据科学"战略项目(C073/23)的一部分,是西班牙国家网络安全研究所(INCIBE)与莱昂大学之间合作协议的结果。该倡议在复苏、转型和韧性计划的框架内进行,由欧盟(下一代欧盟)资助。
作者贡献
所有作者都为研究构思、方法论、形式分析和调查做出了贡献。Lucía Mallo-Fernández进行了数据整理和软件工作。监督、资源和项目管理由Noemí DeCastro-García进行。手稿初稿由所有作者撰写。所有作者审阅并编辑了最终版本。