140万行网络流量数据集分析报告-包含正常流量与僵尸网络流量的多维度特征数据-适用于网络安全分析、机器学习模型训练、入侵检测系统开发的高质量数据集

140万行网络流量数据集分析报告-包含正常流量与僵尸网络流量的多维度特征数据-适用于网络安全分析、机器学习模型训练、入侵检测系统开发的高质量数据集

引言与背景

随着互联网技术的迅猛发展,网络安全威胁日益复杂多变,僵尸网络(Botnet)作为一种常见的网络攻击手段,已成为威胁网络安全的重要因素之一。僵尸网络通过控制大量受感染的主机,能够发起分布式拒绝服务攻击(DDoS)、发送垃圾邮件、窃取敏感信息等恶意活动,给个人、企业和国家的网络安全带来严重威胁。因此,对网络流量进行深入分析,识别和检测僵尸网络活动,成为网络安全领域的重要研究方向。

本报告分析的网络流量数据集包含两个主要部分:Friday-02-03-2018_TrafficForML_CICFlowMeter.csv和ISCX_Botnet-Training.pcap_Flow-with_space.csv,总计1,404,734行数据,约1.14亿个数据点。这些数据集由加拿大网络安全研究所(CIC)和伊朗科学与技术大学(ISCX)联合创建,是网络安全领域广泛使用的公开数据集之一。数据集包含丰富的网络流量特征,如流量持续时间、数据包数量、字节数、端口信息、协议类型等,以及相应的标签信息(如正常流量、僵尸网络流量等),为网络安全研究和入侵检测系统开发提供了宝贵的原始数据。

这些数据集的重要性在于它们提供了真实网络环境下的流量数据,包含了正常网络活动和僵尸网络攻击活动的特征,能够帮助研究人员和开发者更好地理解网络流量模式,开发和评估入侵检测算法和系统。对于科研领域而言,这些数据集可以用于研究网络流量分类、异常检测、机器学习算法在网络安全中的应用等问题;对于行业应用而言,这些数据集可以用于训练和优化入侵检测系统、防火墙、网络监控工具等安全产品,提高网络安全防御能力。此外,数据集的公开性和标准化也促进了网络安全领域的研究交流和技术进步,使得不同研究机构和企业能够基于同一基准进行研究和开发,推动网络安全技术的发展。

数据基本信息

数据集构成概览

本分析涉及的两个网络流量数据集包含丰富的网络流量特征和标签信息,具体构成如下:

数据集名称 行数 列数 总数据量 主要内容 标签类型
Friday-02-03-2018_TrafficForML_CICFlowMeter.csv 1,048,575 80 83,886,000 网络流量特征数据 Benign、Bot
ISCX_Botnet-Training.pcap_Flow-with_space.csv 356,159 84 29,917,356 网络流量特征数据 NeedManualLabel
总计 1,404,734 - 113,803,356 - -

核心字段说明

两个数据集包含相似的网络流量特征字段,以下是主要字段的说明:

字段名称 字段类型 字段含义 数据示例 完整性
Dst Port 整数 目标端口号 80, 53, 443 100%
Protocol 整数 协议类型(0=ICMP, 6=TCP, 17=UDP) 6, 17, 0 100%
Timestamp 字符串 流量记录时间 02/03/2018 08:47:38 100%
Flow Duration 整数 流量持续时间(毫秒) 141385, 281, 279824 100%
Tot Fwd Pkts / Total Fwd Packet 整数 正向数据包数量 9, 2, 11 100%
Tot Bwd Pkts / Total Bwd packets 整数 反向数据包数量 7, 1, 15 100%
TotLen Fwd Pkts / Total Length of Fwd Packet 整数 正向数据包总长度(字节) 553, 38, 1086 100%
TotLen Bwd Pkts / Total Length of Bwd Packet 整数 反向数据包总长度(字节) 3773, 0, 10527 100%
Fwd Pkt Len Max 整数 正向数据包最大长度(字节) 202, 38, 385 100%
Fwd Pkt Len Min 整数 正向数据包最小长度(字节) 0, 0, 0 100%
Fwd Pkt Len Mean 浮点数 正向数据包平均长度(字节) 61.44, 19, 98.73 100%
Bwd Pkt Len Max 整数 反向数据包最大长度(字节) 1460, 0, 1460 100%
Bwd Pkt Len Min 整数 反向数据包最小长度(字节) 0, 0, 0 100%
Bwd Pkt Len Mean 浮点数 反向数据包平均长度(字节) 539, 0, 701.8 100%
Flow Byts/s 浮点数 流量字节速率 30597.31, 135231.32, 41501.09 99.997%
Flow Pkts/s 浮点数 流量数据包速率 113.17, 10676.16, 92.92 100%
Label 字符串 流量标签 Benign, Bot, NeedManualLabel 100%

数据分布情况

1. 标签分布
数据集 标签 记录数量 占比
Friday-02-03-2018 Benign 762,384 72.71%
Friday-02-03-2018 Bot 286,191 27.29%
ISCX_Botnet-Training NeedManualLabel 356,159 100.00%
2. 协议分布
数据集 协议 记录数量 占比
Friday-02-03-2018 TCP(6) 832,492 79.39%
Friday-02-03-2018 UDP(17) 202,701 19.33%
Friday-02-03-2018 ICMP(0) 13,382 1.28%
ISCX_Botnet-Training TCP(6) 277,191 77.83%
ISCX_Botnet-Training UDP(17) 76,273 21.42%
ISCX_Botnet-Training ICMP(0) 2,695 0.76%
3. 目标端口分布(Top 10)
数据集 目标端口 记录数量 占比
Friday-02-03-2018 8080 281,637 26.86%
Friday-02-03-2018 53 192,905 18.40%
Friday-02-03-2018 3389 177,448 16.92%
Friday-02-03-2018 80 110,411 10.53%
Friday-02-03-2018 443 94,826 9.04%
ISCX_Botnet-Training 80 156,317 43.89%
ISCX_Botnet-Training 53 63,033 17.70%
ISCX_Botnet-Training 22 32,935 9.25%
ISCX_Botnet-Training 25 17,752 4.98%
ISCX_Botnet-Training 443 6,761 1.90%
4. 流量持续时间分布
数据集 最小值 最大值 平均值 中位数
Friday-02-03-2018 0 119,999,997 11,514,208.72 11,242.00
ISCX_Botnet-Training -37,348,995,916,690 119,999,998 -93,477,112.74 493,189.00

主要实体分布

1. 源IP分布(Top 5)
数据集 源IP 记录数量 占比
ISCX_Botnet-Training 192.168.5.122 54,408 15.28%
ISCX_Botnet-Training 147.32.84.170 39,297 11.03%
ISCX_Botnet-Training 147.32.84.180 22,107 6.21%
ISCX_Botnet-Training 172.16.0.12 20,884 5.86%
ISCX_Botnet-Training 192.168.1.104 15,713 4.41%
2. 目标IP分布(Top 5)
数据集 目标IP 记录数量 占比
ISCX_Botnet-Training 198.164.30.2 34,559 9.70%
ISCX_Botnet-Training 192.168.5.122 24,277 6.82%
ISCX_Botnet-Training 203.73.24.75 18,008 5.06%
ISCX_Botnet-Training 147.32.84.170 6,045 1.70%
ISCX_Botnet-Training 192.168.1.101 3,755 1.05%

数据优势

本数据集具有以下核心优势,使其成为网络安全研究和应用的宝贵资源:

优势特征 具体表现 应用价值
大规模数据量 总计1,404,734行数据,约1.14亿个数据点,提供充足的样本量 确保机器学习模型训练的准确性和泛化能力,避免过拟合
高质量数据 数据完整率超过99.99%,仅少量缺失值(2,559个缺失值) 减少数据预处理工作量,提高分析结果的可靠性
丰富的流量特征 包含80-84个网络流量特征,覆盖流量持续时间、数据包数量、字节数、端口信息、协议类型等多维度信息 全面描述网络流量行为,支持复杂的流量分析和模式识别
真实网络环境数据 来自真实网络环境的流量记录,包含正常网络活动和僵尸网络攻击活动 反映实际网络环境的流量特征,提高模型在实际应用中的有效性
多样化的标签信息 包含正常流量(Benign)、僵尸网络流量(Bot)等标签,以及需要手动标注的数据 支持有监督和无监督机器学习算法的训练和评估
标准化格式 采用CSV格式存储,字段定义清晰,易于读取和处理 降低数据使用门槛,便于不同研究机构和开发者使用
公开可用 由权威机构创建并公开发布,是网络安全领域广泛使用的基准数据集 促进研究交流和技术进步,推动网络安全技术的发展
多协议覆盖 包含TCP、UDP、ICMP等多种网络协议的流量数据 支持多协议流量分析和入侵检测算法的开发
多端口覆盖 包含80、443、53、8080、3389等多种常用端口的流量数据 支持针对不同服务和应用的流量分析
时间跨度合理 流量记录时间跨度适中,包含不同时段的网络活动 支持时间序列分析和不同时段网络行为的研究

数据样例

以下是从Friday-02-03-2018_TrafficForML_CICFlowMeter.csv数据集中选取的15条代表性样例,涵盖正常流量和僵尸网络流量,展示了不同协议类型、端口号和流量特征的多样性:

序号 Dst Port Protocol Timestamp Flow Duration Tot Fwd Pkts Tot Bwd Pkts TotLen Fwd Pkts TotLen Bwd Pkts Label
1 443 6 02/03/2018 08:47:38 141385 9 7 553 3773 Benign
2 8080 6 02/03/2018 08:48:05 281 2 1 38 0 Bot
3 53 17 02/03/2018 08:47:40 1405 1 1 35 83 Benign
4 80 6 02/03/2018 08:47:41 5964033 3 1 0 0 Benign
5 3389 6 02/03/2018 08:49:12 279824 11 15 1086 10527 Bot
6 445 6 02/03/2018 08:48:35 234228 3 1 0 0 Benign
7 8080 6 02/03/2018 08:50:01 132 2 0 0 0 Bot
8 123 17 02/03/2018 08:48:22 64031632 2 2 96 96 Benign
9 8080 6 02/03/2018 08:51:22 139995 9 8 511 4855 Bot
10 443 6 02/03/2018 08:51:23 62670 9 7 557 3773 Benign
11 0 0 02/03/2018 08:47:31 119250445 72 0 0 0 Benign
12 8080 6 02/03/2018 08:52:15 325271 9 6 524 2879 Bot
13 80 6 02/03/2018 08:51:25 23880 3 5 428 2267 Benign
14 443 6 02/03/2018 08:51:24 328806 9 6 515 2878 Benign
15 8080 6 02/03/2018 08:53:45 440 5 0 0 0 Bot

样例说明

  1. 样例类型:以上样例均来自Friday-02-03-2018_TrafficForML_CICFlowMeter.csv数据集,展示了网络流量的元数据特征。

  2. 多样性特征

    • 标签多样性:包含正常流量(Benign)和僵尸网络流量(Bot),比例约为1:1
    • 协议多样性:包含TCP(协议号6)、UDP(协议号17)和ICMP(协议号0)
    • 端口多样性:涵盖常用端口如HTTPS(443)、HTTP(80)、DNS(53)、RDP(3389)、NetBIOS(445)、NTP(123)以及Web代理(8080)
    • 流量特征多样性:流量持续时间从132毫秒到64,031,632毫秒不等,数据包数量从0到72个不等
  3. 完整数据集内容:实际数据集中包含更多的字段和记录,以上仅展示了部分关键字段的代表性样例。两个数据集均以CSV格式存储,可直接用于数据分析和机器学习模型训练。

应用场景

网络安全分析与入侵检测系统开发

本数据集是开发和测试入侵检测系统(IDS)的理想资源。入侵检测系统通过分析网络流量模式来识别潜在的安全威胁,而本数据集提供了大量真实网络环境中的正常流量和僵尸网络流量样本,为IDS的开发提供了坚实的基础。开发者可以利用数据集中的丰富特征(如流量持续时间、数据包数量、字节数、端口信息等)来构建有效的检测模型,识别各种网络攻击行为。同时,数据集中的标签信息(正常流量和僵尸网络流量)可以用于评估检测模型的准确性和误报率,帮助开发者优化模型性能。在实际应用中,基于本数据集开发的IDS可以部署在企业网络边界、数据中心和关键服务器上,实时监控网络流量,及时发现和响应安全威胁,保护网络基础设施的安全。

机器学习模型训练与算法研究

本数据集为网络流量分类、异常检测和模式识别等机器学习任务提供了优质的训练数据。数据集中包含80-84个网络流量特征,涵盖了流量的多个维度,为构建复杂的机器学习模型提供了丰富的输入信息。研究人员可以利用这些数据训练各种机器学习算法,如决策树、随机森林、支持向量机、神经网络等,比较不同算法在网络流量分析任务中的性能。此外,数据集的大规模特性(超过140万行数据)确保了模型训练的充分性,避免了过拟合问题,提高了模型的泛化能力。通过对本数据集的研究,科研人员可以开发出更高效、更准确的网络流量分析算法,推动网络安全技术的发展。

僵尸网络检测与行为分析

僵尸网络是当前网络安全领域面临的主要威胁之一,它们由大量被恶意软件感染的计算机组成,可被攻击者远程控制进行各种恶意活动。本数据集专门包含了僵尸网络流量样本,为研究僵尸网络的行为特征和检测方法提供了宝贵资源。研究人员可以分析僵尸网络流量的特征模式,如连接频率、流量持续时间、通信端口、数据包大小等,识别僵尸网络的典型行为。基于这些分析结果,可以开发出专门针对僵尸网络的检测工具和防护策略,提高网络对僵尸网络攻击的防御能力。此外,通过比较正常流量和僵尸网络流量的差异,研究人员可以深入了解僵尸网络的工作原理和传播机制,为制定更有效的防御措施提供理论支持。

网络流量异常检测

网络流量异常检测是网络管理和安全维护的重要组成部分,它通过识别网络流量中的异常模式来发现潜在的问题。本数据集包含大量正常网络流量样本,可以用于建立网络流量的正常行为基线。当实际网络流量偏离这个基线时,可能表明网络中存在异常情况,如网络故障、配置错误或安全攻击。研究人员和网络管理员可以利用数据集中的正常流量特征建立异常检测模型,实时监控网络流量,及时发现和处理异常情况。这种基于数据驱动的异常检测方法具有较高的准确性和自动化程度,可以有效提高网络管理的效率和安全性。

网络安全教学与培训

本数据集是网络安全教学和培训的理想教材。在网络安全课程中,教师可以利用本数据集向学生展示真实的网络流量特征和安全威胁,帮助学生理解网络安全的基本概念和技术原理。学生可以通过分析数据集,学习如何识别正常流量和恶意流量,掌握网络流量分析的基本方法和工具。此外,数据集的大规模和多样性特征为学生提供了实践机会,他们可以在此基础上进行实验和项目开发,提高实际操作能力。这种理论与实践相结合的教学方式可以有效提高学生的学习效果,培养更多的网络安全专业人才。

结尾

本数据集作为网络安全领域的高质量资源,具有不可替代的价值和广泛的应用前景。其核心价值主要体现在以下几个方面:

首先,数据集的大规模特性(超过140万行数据)和高质量特征(完整率超过99.99%)确保了其在机器学习模型训练和算法研究中的有效性和可靠性。丰富的流量特征(80-84个字段)全面描述了网络流量的各个维度,为深入分析网络行为提供了充足的信息。

其次,数据集包含正常流量和僵尸网络流量的真实样本,为网络安全分析、入侵检测系统开发和僵尸网络研究提供了宝贵的实验数据。通过对这些数据的分析和研究,可以开发出更高效、更准确的网络安全技术和产品,提高网络对各种安全威胁的防御能力。

第三,数据集的标准化格式和公开可用性降低了使用门槛,促进了研究交流和技术进步。研究机构、企业和开发者可以轻松获取和使用这些数据,推动网络安全技术的创新和发展。

最后,数据集在教育和培训领域的应用价值也不可忽视,它为培养网络安全专业人才提供了真实、丰富的实践材料,有助于提高网络安全人才的质量和数量。

综上所述,本数据集是网络安全研究和应用的宝贵资源,具有重要的理论价值和实际应用意义。它的发布和应用将为网络安全技术的发展和网络空间的安全做出重要贡献。

提示:如需获取更多相关信息或有任何问题,欢迎私信交流。

相关推荐
小陈phd10 小时前
多模态大模型学习笔记(七)——多模态数据的表征与对齐
人工智能·算法·机器学习
Ro Jace11 小时前
分岔机制学习
人工智能·学习·机器学习
TG_yunshuguoji13 小时前
亚马逊云代理商:AWS 国际站缺卡新用户创建邮箱怎么选择?
安全·云计算·aws
黑客思维者14 小时前
正则表达式(九)网络安全:检测SQL注入攻击 + 检测XSS跨站脚本 + 扫描敏感信息泄露 + 匹配暴力破解异常IP
sql·web安全·正则表达式
金融小师妹14 小时前
3月美联储货币政策决策的动态博弈——基于就业市场数据与通胀预测的AI模型分析
大数据·人工智能·深度学习·机器学习
枷锁—sha15 小时前
【CTFshow-pwn系列】03_栈溢出【pwn 053】详解:逐字节爆破!手写 Canary 的终极破解
网络·笔记·安全·网络安全
峰顶听歌的鲸鱼16 小时前
Zabbix监控系统
linux·运维·笔记·安全·云计算·zabbix·学习方法
安当加密16 小时前
用 SMS 凭据管理系统替代 HashiCorp Vault:中小企业的轻量级 Secrets 管理实践
服务器·数据库·安全·阿里云