网络安全中对抗性漂移的多智能体强化学习

大家读完觉得有帮助记得及时关注和点赞！！！

抽象

不断演变的攻击是网络入侵检测系统（NIDS）长期成功的关键挑战。这些不断变化的模式的兴起暴露了传统网络安全方法的局限性。虽然基于签名的方法用于检测不同类型的攻击，但它们通常无法检测未知攻击。此外，由于攻击者不断改变他们的策略，该系统需要频繁更新新签名。在本文中，我们设计了一个环境，其中两个代理会随着时间的推移改进他们的策略。对抗代理（称为红色代理）扰动数据包以逃避入侵检测机制，而蓝色代理则使用漂移适应技术学习新的防御策略来对抗攻击。两种代理都会反复适应：红色代理响应不断发展的 NIDS，而蓝色代理则适应新出现的攻击模式。通过研究模型的学习策略，我们为具有高效用的漂移适应技术提供了具体见解。实验表明，蓝色代理只需 2-3 个适应步骤，每个步骤仅使用 25-30 个样本，即可将模型准确性提高 30%。

1介绍

网络入侵检测系统（NIDS）在监控和识别恶意流量方面发挥着关键作用。然而，它们越来越多地受到对抗性攻击的挑战，其中输入是故意设计的以逃避检测。另外，如果不定期更新模型，数据漂移（网络数据包模式随时间的变化）可能会降低检测性能。
在实际的网络安全系统中，通过网络的数据包可能是对抗性的，并且能够执行攻击。NIDS 会监控流量中的可疑行为，并在检测到异常情况时提醒安全团队。然后，安全团队会调查某些数据包并将其归类为攻击源。但是，这种人机协同过程会带来延迟，通常会在采取任何防御措施之前使攻击成功。为了减少这种延迟，自动适应机制是必不可少的，机器学习（ML）模型在这一领域发挥着关键作用。然而，随着防御者采用 ML 来提高响应时间和检测准确性，攻击者也在发展他们的策略，使用 ML 技术来逃避检测，使防御形势进一步复杂化。
假设有一家中型金融机构，某一天下午，一波混淆数据包绕过了启用了 ML 的 NIDS，没有立即触发警报。几个小时后，安全运营中心（SOC）的分析师调查了失败事务的激增，并追溯性地将几个早期的数据包标记为恶意数据包。该团队现在面临一个关键决定：*他们应该使用特定的漂移适应技术重新训练 NIDS，还是投入额外的时间和资源来识别信息量最大、最不确定的样本？*在时间和计算资源有限的情况下，了解哪种适应策略（或其组合）在恢复检测性能方面最有效，成为一项关键的研究和运营问题。
在以前的作品中，如 DeepPackGen（Hore 等人，2025)，深度强化学习（DRL）在成功逃避 NIDS 的样本中产生扰动方面表现出强大的性能。同样，Chale 等人提出了一种约束优化方法，用于在网络入侵检测系统中生成对抗性示例，该方法确保受扰动的数据包在协议约束下保持功能（Chale 等人，2024).但是，这两种方法都假定其 Defender 模型是静态的，这在大多数情况下在实际场景中无效。在实践中，组织会定期更新其防御机制以适应不断变化的攻击。此外，可用数据通常没有准确标记，这使得适应过程更具挑战性。
在本文中，我们的目标是模拟一个多智能体漂移适应游戏，其中一个玩家（红色智能体）将执行有效的网络扰动，而另一个玩家（蓝色智能体）将通过适应扰动样本引入的分布偏移来执行漂移适应。本文的主要贡献有三个方面：

•
我们创建了一个新颖的 RL 环境，将数据包级攻击和漂移适应统一到攻击者和防御者代理之间共同进化的单一游戏中。我们将公开我们的代码。
•
据我们所知，这是第一个基于 Agent 的 NIDS 漂移适应框架，它集成了高效的适应技术，例如主动和持续学习。
•
我们将入侵检测建模为一个长期的多代理流程，以捕获战略演变。

2相关作品

网络安全中的对抗性攻击： 对抗鲁棒性近年来取得了重大进展，尤其是在恶意软件分析和入侵检测领域。尽管防御机制取得了进步，但现有方法在不断演变的攻击下仍然无法很好地发挥作用（Bai 等人，，2021).
入侵检测系统： 传统的入侵检测系统通常无法应对不断变化的网络攻击。最近的研究提出了自适应技术，例如集成学习、在线再训练和漂移检测，以缓解这些问题（Jaw 和 Wang，，2021;Shyaa 等人，，2024).然而，这些方法中的大多数将适应视为一个周期性的、反应性的过程，而不解决实时对抗性扰动。
漂移适应技术： 漂移方法已在对抗环境中使用检测方法进行了广泛研究。Lu 等人和 Gama 等人的调查为非平稳环境中的漂移适应技术提供了全面的基础（Lu 等人，，2014;Gama 等人，，2014). 主动学习和半监督学习已被广泛采用，用于降低手动标记的成本，并帮助分类器在标记数据有限或不确定时进行调整（定居，，2009).不确定性采样、基于聚类的选择和核心集方法等技术在各个领域都显示出强劲的性能（Ouali 等人，，2020). 持续学习和对比学习为减少灾难性遗忘和提高模型在面对不断变化的威胁时的弹性提供了有前途的解决方案。这些技术在 Android 恶意软件检测和入侵分类等任务中显示出有效性（Yue et al.，2022;Wu et al.，2022).
多智能体强化学习： 在网络安全中，多智能体强化学习（MARL）也被探索用于动态防御机制和最佳资源分配。以前的工作表明，在许多基于安全的场景中，MARL 的性能优于传统的安全技术。周 et al. 详细概述了 MARL 在不同领域的应用，包括网络安全。除了概述，作者还提到 MARL 通过协作学习解决了传统 NIDS 的局限性。然而，它在适应性对抗情况下的相关性是有限的，因为大多数现有作品要么假设合作代理设置，要么忽略概念漂移（周 et al.，2023).
带漂移适应的 MARL： 以前，Kuppa 等人。（Kuppa 和 Le-Khac，，2022)提出了一种基于漂移技术的检测机制，其中他们的方法是静态的，专注于检测漂移或对抗样本并发现新类别。Shayesteh 等人还提出了一个静态漂移模型，该模型依赖于迁移和集成学习等传统方法进行漂移检测，这与我们的工作密切相关（Shayesteh 等人，，2022).
网络安全模拟环境： 已经提出了几种网络安全模拟环境，每种环境都解决了网络防御的不同方面。例如 - Hammar 等人。（哈马尔和斯塔德勒，2020)提出了自我博弈和强化学习，以在简化的马尔可夫博弈中生成合理的安全策略。同样，CyberBattleSim 平台强调系统级访问和权限提升（团队.，，2021).基于这些环境，Piplai 等人引入了一个知识导向的双人强化学习框架，该框架结合了网络安全知识图谱来训练攻击者和防御者代理，与传统设置相比，它提高了学习效率并减少了网络中断（Piplai 等人，2022).
尽管在对抗稳健性、自适应 NIDS 和 MARL 应用方面取得了显着进展，但目前的方法要么静态处理适应，要么假设良性代理行为，要么忽视动态对抗漂移。我们的工作通过引入一种动态的双智能体强化学习系统来解决这些差距，该系统能够在对抗性扰动下进行连续漂移适应。据我们所知，这是 MARL 和实时漂移适应技术的首次集成，专门针对专用模拟环境中不断发展的网络威胁。

3方法论

**框架概述：**我们的框架由三个主要组件组成------一个基于机器学习的分类器、一个红色代理训练模块和一个蓝色代理训练模块------并分别使用 CICIDS-2017 和 ACI IoT 数据集应用于两个单独的实验。
数据集和预处理： 我们使用 CICIDS-2017 数据集进行实验（Sharafaldin 等人，2018).它包含原始 pcap 文件形式的良性样本和攻击样本。数据是从 2017 年 7 月 3 日（星期一上午 9 点）到 2017 年 7 月 7 日（星期五下午 5 点）期间捕获的。此数据收集中已识别的攻击类型包括暴力破解 FTP、暴力破解 SSH、DoS、Heartbleed、Web 攻击、渗透、僵尸网络和 DDoS。
我们还使用了 2023 年 ACI 物联网网络流量数据集（Bastian 等人，2023)用于我们的实验。ACI 物联网环境复制了标准家庭物联网（IoT）网络的运行条件，结合了有线和无线设备的异构组合。本研究中使用的数据集采用多模态数据表示，包括网络流量模式、设备间通信和设备特定属性。此外，该数据集通过检查正常运行状态和对抗条件下的复杂网络行为，强调 IoT 设备的行为分析。该数据集由以下标记类组成：良性 DNS Flood、Dictionary Attack、Slowloris、SYN Flood、Port Scan、Vulnerability Scan、OS Scan、UDP Flood 和 ICMP Flood。数据收集实验于 2023 年 10 月 30 日至 11 月 3 日进行。
预处理从访问相应的数据集开始，该数据集遵循 TCP/IP 模型进行网络通信。原始网络流量数据以 libpcap （pcap）格式存储，该格式被广泛认为是网络数据包捕获的事实标准。我们遵循适当的数据包标记准则。每个 TCP 数据包最多包含 1,594 字节的信息;但是，并非所有这些字节都被利用，因为某些与协议相关和特定于 Headers 的信息可能会在模型中引入偏差。因此，以太网（ETH）报头、源和目标 IP 地址以及源和目标端口号都从每个数据包中删除。
数据包可能包含 1,460 字节的最大负载大小，但并非所有数据包都达到此限制。为了保持标准化的数据结构，有效载荷数据少于 1460 字节的数据包被零填充。预处理后，提取的特征长度为 1,525。最后，原始数据包信息（最初以十六进制格式表示）被转换为从 0 到 255 的十进制值，随后归一化为 [0， 1]，以提高计算效率并确保学习在连续的输入空间中运行。
**Red Agent 和 Adversarial 样品生成：**在拟议的框架中，红色代理的目标是对数据集中的恶意网络数据包生成对抗性扰动，使它们能够逃避基于机器学习的分类器的检测，同时保留其原始的恶意功能。这个过程涉及引入一个扰动 'δ' 添加到恶意数据包中，以便修改后的数据包xp被 Defender 的分类器错误地分类为良性。正式xp定义为：

哪里P表示应用于原始数据包的扰动函数。本研究中的对抗数据包是按照（Hore 等人，2025).
为网络数据包生成对抗样本的过程可以表述为顺序决策问题。在这个框架中，强化学习代理学习使用深度强化学习（DRL）迭代地应用扰动。在每次迭代中，代理都会以最大化预定义奖励函数的方式修改数据包，从而增加逃避防御者模型检测的可能性。此问题被建模为马尔可夫决策过程（MDP），具有以下关键组成部分：

•
**州：**状态表示从预处理数据集获取的网络数据包的规范化字节值。
•
**行动：**动作空间由有效的扰动δ∈Δ代理可以在每个时间步应用t.
•
**奖励：**奖励函数量化了采取行动的有效性一个t在t.它旨在指导代理学习最佳策略，在保持数据包功能的同时最大限度地提高欺骗 Defender 模型的可能性。
DRL 培训： 深度强化学习（DRL）代理的训练环境由初始阶段的标记网络数据包和预训练分类器组成。环境的状态定义为随机选择的恶意网络数据包。代理执行的每个作都会导致状态转换，从而生成一个扰动样本。设计了一种新的奖励函数来指导代理学习逃避分类器的最佳策略。该过程以迭代方式继续，直到对抗性样本成功错误分类或达到预定义的最大步骤数。图 1 显示了 DRL 代理的红队训练。在此阶段，代理学习生成对抗样本的最佳策略。
为了训练红色代理，我们采用具有深度 Q 网络（DQN）、近端策略优化（PPO）和优势演员评论家（A2C）的 DRL。DQN 和 PPO 非常适合离散动作空间的问题，而 A2C 可用于连续和离散空间。正如之前的工作中所讨论的那样，应用扰动技术是基于在引入对抗性噪声的同时保留数据包功能的一般原则。（Nasr 等人，，2021;Sadeghzadeh 等人，，2021;Guo et al.，2021;Apruzzese 等人，，2020;Huang et al.，2020).具体来说，修改包括：
•
将分段字节从

"Do Not Fragment" 修改为 "Fragment"。
•
将分段字节从"Do Not Fragment"修改为"More Fragments"。
•
增加或减少生存时间（TTL）字节值。
•
通过增加或减少字节的值来调整窗口大小字节。
•
通过添加、增加或减少最大段大小（MSS）值来修改该值。
•
通过添加、增加或减少窗口缩放值来调整窗口缩放值。
•
将其他分段信息合并到数据包中。

这些扰动经过精心设计，以保持数据包的完整性，同时增强逃避检测的对抗能力。

图 1：DRL 代理的 Red Agent 培训
蓝色特工： 蓝色代理的目标是通过选择最佳漂移适应技术来保护网络免受攻击。在这里，蓝色代理主要使用四种漂移适应技术来随着时间的推移适应和更新其策略。使用这些技术，代理了解如何以及何时更新自身。当新数据到达时，代理会选择这些技术，其中每种技术代表一个作。该作允许代理根据它选择的技术更新其分类器。在每个批次中，可以使用多种漂移适应技术。蓝色智能体的状态、动作和奖励函数定义如下 -

**状态：**蓝色智能体中的状态表示为模型已看到的和模型尚未看到的特征平均值的差值。
让μ新增功能是当前批次的平均向量，并且μ明显是所有以前看到的数据的均值向量。功能差异ft在t可以定义如下：

哪里：

•
x我新增功能是我-当前批次大小n新增功能,
•
xj明显是j- 来自所有先前观察到的数据的第 -个样本（大小n明显).
除了特征差异之外，状态向量还包含五个指标：分类准确性、假阳性率（FPR）、假阴性率（FNR）、用于测量分布偏移的 KL 散度，以及用于量化当前数据和以前看到的数据之间的统计差异的 Wasserstein 距离。因此，最终状态向量定义为：

**行动：**状态根据四种漂移适应技术（主动学习、在线学习、持续学习、伪标记）而变化，这些技术是蓝色代理的作。从四个离散作中，蓝色代理可以选择任何作来更新其状态，并可以调整其策略。这些策略有助于代理在对手发生变化时对变化保持稳健。最好在单个批次中选择多个作以进行适应。这四种作的说明如下：
行动 0：在线学习： 在这个策略中（Shalev-Shwartz 等人，2012)，RL 算法与环境实时交互，以使用最新的批次逐步更新模型。实时交互的好处是无需从头开始重新训练更新。给定来自环境的一组样本，我们随机选择一个子集𝒬大小B它由 Query budget 定义。
行动 1：主动学习： 这侧重于信息量最大的数据，而不是所有样本（定居，，2009).它有选择地查询标签以更新模型。对于此学习模型，我们需要使用预测的类概率的熵来计算不确定性。为了在查询预算下执行主动学习，我们通过使用模型的预测类概率来使用不确定性采样。对于每个进样x我，我们将预测置信度计算为最大类概率，并在预定义的不确定性范围内选择预测置信度[p低,p高].如果不确定样本的数量超过查询预算B，我们选择顶部 -B大多数不确定的样本（即最接近 0.5 置信度的样本）。
**行动 2：持续学习：**在这里，代理会随着时间的推移学习知识，而无需对整个数据集进行额外培训。这种方法的关键思想是，它赋予最近的样本比旧样本更多的权重。公式定义如下：

哪里

这里ℬ是输入样本集，ℋ⁢(x我)是样本的熵x我和τ低,τ高是分别用于选择代表性样本和判别性样本的熵阈值。我们结合使用了这些样本，ℛ来调整模型。我们使用在安全设置上表现良好的设置（Rahman 等人，，2025).
作 3：伪标记 这是一种半监督学习技术，其中模型选择预测置信度高于阈值的未标记样本，并将预测的标签视为真实（Arazo 等人，，2020).然后，在缺乏足够标记数据的情况下，使用这些伪标记样本来优化模型。让θ表示模型参数，fθ⁢(x我)模型预测，以及y^我=精氨酸⁡麦克斯⁡fθ⁢(x我)分配的伪标签。更新模型以减少集合上的损失𝒫选定的伪标记样品：

此更新可能涉及也可能不涉及基于梯度的方法，具体取决于学习框架。
**奖励：**可以对单个批次执行多个作，每个作都会将环境转换为新状态并产生奖励。蓝色代理的奖励结构旨在平衡准确性提高与样品效率。
让累积测试t表示模型在时间的测试准确性t和累积测试t−1是上一个时间步的精度。让r=|𝒟使用||𝒟火车|表示当前步骤中使用的训练样本与可用训练数据总数的比率。我们还定义了T作为固定的测试准确度阈值。奖励Rt则定义为：

选择此奖励公式中使用的常量是为了在性能和效率之间进行权衡。固定奖励10当精度超过阈值时T作为达到和保持高绩效的持续激励，而无需不必要的再培训。惩罚期−10⋅r通过分配与所用训练集的比例成比例的成本来阻止过度使用数据。这有助于促进数据高效行为，在重新训练可能成本高昂的概念漂移下尤其重要。改进项50⋅(累积测试t−累积测试t−1)奖励测试性能的实际收益，鼓励代理选择能够带来有意义学习的作。乘数 50 确保即使是很小的改进（例如 1-2%）也能产生显着的奖励，有助于抵消惩罚

4实验结果

在我们的实验设置中，我们模拟了红色代理（攻击者）和蓝色代理（防御者）之间的双人交互，以模拟动态的对抗环境。红色代理旨在通过扰乱数据样本来破坏入侵检测系统（IDS），而蓝色代理则通过调整其防御策略来做出响应。两个代理在轮换中学习和更新各自的策略，从而允许持续的适应过程。这个迭代框架使防御者能够保持弹性，以应对不断发展的和以前看不见的攻击策略，反映现实世界的情况。

图 2：使用 CICID 2017 和 ACI IoT 数据集的自适应防御框架概述
我们将数据集分为 120 个连续批次，其中每个批次由红色和蓝色代理交替使用，以更新各自的策略。我们在图 2 中描述了此设置。在红色代理的回合中，它将 NIDS（分类器）视为静态，并尝试扰乱当前批次的数据以逃避检测。红色代理的成功取决于它生成绕过现有分类器的扰动的能力。在随后的轮次中，蓝色代理接收红色代理的扰动数据和新批次的数据，使用它们重新训练和更新 NIDS 模型。然后，这个更新的分类器将在下一回合提供给红色代理，使其能够根据最新的防御模型调整其扰动策略。通过这种交替交互，红色代理不断学习攻击移动目标，而蓝色代理则使用漂移适应技术逐步强化分类器。这种双人适应技术有助于代理双方适应不断变化的策略。
结果： 我们进行了几次评估，以提供对红色和蓝色代理培训的见解。在图 3 和图 4 中，我们观察到红色和蓝色代理的平均情景奖励以及标准差。

图 3：Red Agent training （SAC）期间的情景奖励和标准差，反映了它在扰动模型以逃避分类方面的有效性。
我们观察红色代理奖励的均值和标准差，发现模型训练相对较快。在 100 次发作后观察到的低标准差和高平均值表明，红色代理仅使用少量作就能够成功逃避分类器。

图 4：Blue Agent 训练（DQN）期间的情景奖励和标准差。这些点代表平均剧集奖励。
如图 4 所示，蓝色代理的偶发奖励随着时间的推移表现出较慢但更稳定的增长。与红色代理相比，标准差明显更高，表明并非所有作都会产生一致的结果。由于强化学习代理的探索性，次优作在训练的早期阶段更为频繁，但随着代理向更有效的策略收敛，次优作往往会减少。

图 5：Blue Agent 训练期间的动作频率分布。
蓝色代理作的计算成本明显高于红色代理，因为它们涉及更新 XGBoost 模型，而 XGBoost 模型是计算密集型的，难以高效并行化。尽管成本较高，但我们还是特意选择了 XGBoost，因为它在行业中广泛使用，并且在各种分类任务中具有强大、可靠的性能，尤其是在与安全相关的应用中。

| 行动 | 平均奖励 |
| 主动学习 | 0.2157 |
| 在线学习 | 0.1526 |
| 伪标记 | -4.6639 |

持续学习	-1.4697

表 1：Blue Agent 训练期间每个动作的平均奖励。
表 3 、 4 显示了红色智能体训练后、蓝色智能体响应前后分类器性能的下降。准确率的变化反映了分类器如何受到通过 red 代理的扰动引入的人为漂移的影响。CIC-IDS 2017 和 ACI-IoT 数据集在恶意软件和良性类别上都具有很高的准确性。虽然处理后的 CIC-IDS 2017 数据集是平衡的，但 ACI-IoT 数据集表现出类不平衡。我们在实验中包括 ACI-IoT，不仅是为了评估泛化性，还因为 CIC-IDS 2017 虽然被广泛使用，但已成为标准基准，而 ACI-IoT 是最近收集的及时数据集。

| | 所有 state 功能 | |------| | 状态功能 | | 无模型 | | 特性 | | |------| | 状态功能 | | 无数据 | | 特性 | |
|-----------|-------------|-------------------------------------|-------------------------------------|
| DQN | 89.34 | 87.18 | 72.46 |
| PPO （PPO） | 92.05 | 86.96 | 84.81 |
| A2C 抗体 | 87.34 | 85.89 | 75.44 |

表 2：消融研究，以了解在学习适当的漂移适应序列时状态表示的影响。这些分数反映了适应新数据集的平均最终准确性。初始准确率在 62-65% 之间。

| | |---------| | 准确性的变化 | | （蓝色行动前） | | |---------| | 准确性的变化 | | （蓝色动作后） | |
|-----------|-------------------------------------|-------------------------------------|
| 囊 | 97.08 - 64.46% | 91.89 - 78.48% |
| DDPG 系列 | 97.50 - 64.33% | 93.72 - 77.57% |
| PPO （PPO） | 96.25 - 69.44% | 96.12 - 75.88 % |

表 3：红色代理导致 CIC-IDS 的模型准确性下降

| | |---------| | 准确性的变化 | | （蓝色行动前） | | |---------| | 准确性的变化 | | （蓝色动作后） | |
|-----------|-------------------------------------|-------------------------------------|
| 囊 | 97.62 - 68.46 % | 86.07 - 68.01% |
| DDPG 系列 | 94.59 - 69.65% | 79.62 - 66.21 % |
| PPO （PPO） | 93.46 - 69.50% | 85.92 - 68.35% |

表 4：红色代理导致 ACI-IoT 数据集的平衡准确率下降
在表 2 中，我们进行了一项消融研究，以确定我们的蓝色漂移适应环境最有效的状态表示，假设自主代理可以根据分类器的状态和数据分布选择合适的适应策略。基线状态包括特定于模型的特征和特定于数据的特征（第 3 节），我们的结果表明，数据特征通常对代理的决策有更大的影响。为了进一步分析代理的行为，我们通过比较所选动作随时间的分布来检查其策略在训练期间如何演变（图 5）。我们发现，对伪标签的依赖下降，表明漂移下的可靠性降低，而在线和主动学习成为主导策略。持续学习也有贡献，尽管它需要从已知分布中识别样本以填充重放缓冲区，这是我们的奖励函数中没有捕获的额外成本，该函数仅基于测试性能改进和样本效率。

5结论

我们的设置反映了现实世界的动态，其中对手不断发展，防御者必须定期更新或刷新他们的模型。在实践中，有害数据包最初可能未被检测到，只有在 SOC 进一步分析后（通常是在事件发生后）才会被标记为恶意或良性。这种延迟的反馈凸显了选择有效的漂移适应技术的重要性。我们的研究结果表明，随机在线学习即使只有 20 个样本，也可以非常有效。专注于查询不确定样本的主动学习也显示出前景;但是，当模型过于自信时，它可能会动摇，从而导致为有意义的更新选择的样本太少。因此，对于组织来说，一个实用的建议，尤其是在时间有限的情况下，使用一种具有少量随机样本的简单方法，因为它在速度和有效性之间提供了很好的平衡。
我们提出了一种新的强化学习环境，它通过两个交互代理（自适应攻击者和学习防御者）来模拟网络入侵和防御策略的协同进化。通过将入侵检测构建为多代理过程，我们证明了漂移适应技术，尤其是那些需要最少标记数据的技术，可以显著提高检测性能，实现高达 30% 的准确率提高。我们分析了防御者适应后的攻击者行为，并探索了适应防御者的最佳状态空间表示。未来，我们计划调查具有更大时间漂移的场景，并进行长期分析，结合更广泛的不断发展的攻击类型，以更准确地反映现代 NIDS 面临的动态威胁形势。