网络安全公开数据集Maple-IDS,恶意流量检测数据集开放使用!

Maple Dataset 枫叶数据集

Maple Dataset枫叶数据集由东北林业大学网络安全实验室(https://maple.nefu.edu.cn/lab/)公开发布,是用于入侵检测评估的数据集,其目的在于提升异常基础入侵检测系统(IDS)以及入侵预防系统(IPS)的性能与可靠性。在网络攻击愈发复杂的当下,拥有一个可靠且紧跟时代的数据集,对于测试和验证 IDS 及 IPS 解决方案是极其重要的。

且如今的网络攻击手段多样,攻击者常常采用混合式攻击,如同时结合病毒、木马和网络钓鱼等方式。在这种情况下,如果没有高质量的数据集来对 IDS 和 IPS 进行测试,就难以确保其能有效地抵御这些复杂攻击。又如,新出现的零日攻击等未知威胁,更需要借助最新的数据集来训练和验证防护系统,以便及时发现和防范。

枫叶数据集旨在提供最新的、多样化的攻击数据,以帮助研究人员和开发者更好地评估和改进他们的入侵检测和预防系统。我们在大量的服务上生成并采集了恶意流量,包含了最新的 CVE,以及真实世界中存在着的恶意攻击类型。

数据集官网: https://maple.nefu.edu.cn/

**数据集性质:**供科研学术可免费公开使用,但请引用我们的官网或论文。

数据集列表:

DDoS: HTTP (Plain/gzip/random), TCP, UDP, ReCOIL, LOIC

DNS: DoH, DoQ, DoT (coming soon)

ICMP: Normal ICMP, Smuggled ICMP

MySQL: CVE-2012-2122

Nginx: CVE-2017-7529

OpenSSL: CVE-2022-0778, HeartBleed, Normal traffic

Windows OS: Windows 10 provision, Windows Update

VPN: Cisco AnyConnect, DNS Leak, Trojan traffic (coming soon)
如何使用

直接使用 CSV 文件

数据集中提供的 CSV 已经符合了 CIC-IDS 中的列与元信息。

改动 Python 中加载 *.csv 的名称即可。

从流量文件手动生成 CSV

准备好上方下载完的数据集流量文件(*.pcap)。

使用 CICFlowMeter (https://github.com/ahlashkari/CICFlowMeter) 打开。

选取离线模式,导出为 CSV 文件。
研究背景

传统的评估数据集的攻击流量和利用方式,往往内容过时、流量多样性不足、攻击种类不足、特征不足。重要的是,随着 HTTPS/TLS 加密的普及了,恶意流量被层层加密,无法被安全设备解析。

因此,枫叶数据集提供了一个全面、现代的数据集来供机器学习人员学习恶意流量特征,用于入侵检测研究。

兼容使用CIC-IDS数据集的代码

如果你的代码或模型是用 CIC-IDS 数据集训练或者编写的,那么可以直接更换到枫叶数据集上,我们的格式兼容了 CIC-IDS。

您可以直接使用 CICFlowMeter 这个工具来生成 CSV 文件,输入到机器学习模型中。

无需重写代码或进行其他改动。

数据集类别概览(包含内容)

内容:数据集包含最新的常见攻击,类似于真实世界的网络流量(PCAP/PCAPNG 格式)。

流量分析:使用 CICFlowMeter 进行的网络流量分析结果,标记基于时间戳、源和目标IP地址、端口、协议和攻击类型的流,存储在CSV文件中。

DDoS 攻击:数据集包括 DDoS 攻击,这些在真实世界的网络流量中很常见。并且由于随机内容,数据集更加多样化。GET、POST、HEAD 和 OPTIONS 是最常见的 HTTP 方法。

对每种服务细分的流量包和数据集 :我们对于每种服务(HTTP、HTTPS、SMTP、IMAP、POP3、FTP、SSH、RESTful API、gRPC、WASM)都提供了数据集。

多样的流量 :对于 ping 或者 HTTP,DDoS 的形式就多种多样,TCP,UDP, SYN 攻击,还有 ICMP 走私,我们的数据集都有覆盖到。

N-day 漏洞:数据集包括 n-day 漏洞,如 OpenSSL 中存在的著名漏洞 HeartBleed,日后打算囊括更多的 CVE 漏洞。
更多功能即将推出

DPDK、PF_RING 支持

如果您有任何问题或建议,请给我们反馈。

数据生成

与完全随机的流量不同,我们根据真实世界中用户、端点和流量的行为模式,对流量的结构进行编排配置。在流量加密方法上,基于了 HTTP、HTTPS与SM3/4等进行数据包构造。 模拟了对于 SSH、RESTful API、gRPC、WASM 流量的,这些现代协议及其各种实现等,组成了本数据集的主要部分。

处理工具

在创建数据集的过程中,我们使用了许多自己开发的工具。

它们是开源的,可以从 GitHub 上免费下载。

大部分工具的仓库中都有教程。

联系我们

有任何问题或需要帮助,请随时与我们联系:

电子邮件:maple@nefu.edu.cn

GitHub:github.com/maple-nefu

QQ 群:631300176

东北林业大学实验室官网:https://maple.nefu.edu.cn/lab/