🧑 博主简介:曾任某智慧城市类企业
算法总监
,目前在美国市场的物流公司从事高级算法工程师
一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者,提供AI相关的技术咨询、项目开发和个性化解决方案等服务,如有需要请站内私信或者联系任意文章底部的的VX名片(ID:xf982831907
)
💬 博主粉丝群介绍:① 群内初中生、高中生、本科生、研究生、博士生遍布,可互相学习,交流困惑。② 热榜top10的常客也在群里,也有数不清的万粉大佬,可以交流写作技巧,上榜经验,涨粉秘籍。③ 群内也有职场精英,大厂大佬,可交流技术、面试、找工作的经验。④ 进群免费赠送写作秘籍一份,助你由写作小白晋升为创作大佬。⑤ 进群赠送CSDN评论防封脚本,送真活跃粉丝,助你提升文章热度。有兴趣的加文末联系方式,备注自己的CSDN昵称,拉你进群,互相学习共同进步。

【数据可视化-27】全球网络安全威胁数据可视化分析(2015-2024)
-
- 一、引言
- 二、数据探索
-
- [2.1 数据集介绍](#2.1 数据集介绍)
- [2.2 数据清洗与探索](#2.2 数据清洗与探索)
- 三、单维度特征可视化
-
- [3.1 各年份攻击事件数量](#3.1 各年份攻击事件数量)
- [3.2 威胁类型分布](#3.2 威胁类型分布)
- [3.3 受影响行业分布](#3.3 受影响行业分布)
- [3.4 数据泄露量分布](#3.4 数据泄露量分布)
- [3.5 财务影响分布](#3.5 财务影响分布)
- [3.6 安全漏洞类型分布](#3.6 安全漏洞类型分布)
- 四、多维度关系可视化
-
- [4.1 年份与威胁类型的关系](#4.1 年份与威胁类型的关系)
- [4.2 攻击源与威胁类型的关系](#4.2 攻击源与威胁类型的关系)
- [4.3 受影响行业与威胁类型的关系](#4.3 受影响行业与威胁类型的关系)
- [4.4 不同威胁类型的数据泄露量与财务影响的关系](#4.4 不同威胁类型的数据泄露量与财务影响的关系)
- [4.5 安全漏洞类型与事件解决时间(小时)的关系](#4.5 安全漏洞类型与事件解决时间(小时)的关系)
- [4.6 使用的防御机制与威胁类型的关系](#4.6 使用的防御机制与威胁类型的关系)
- [4.7 国家与目标行业的关系](#4.7 国家与目标行业的关系)
- 五、总结与洞察
一、引言
在当今数字化时代,网络安全威胁日益复杂且多样化。通过数据可视化分析,我们可以从多维度揭示网络安全威胁的分布特征、演变趋势以及各因素之间的关联。本文将基于2015-2024年间全球网络安全威胁数据集,进行深入的可视化探索,帮助大家更直观地理解网络安全态势。
二、数据探索
2.1 数据集介绍
本数据集包含以下变量:
- 国家:发生攻击的国家
- 年份:事件发生年份(2015-2024)
- 威胁类型:网络安全威胁类型(如恶意软件、DDoS等)
- 攻击类型攻击方法:(如网络钓鱼、SQL注入等)
- 目标行业:目标行业(如金融、医疗保健等)
- 数据泄露量(GB):数据量受损
- 财务影响($M):估计经济损失(百万美元)
- 安全漏洞类型:例如,零日漏洞、SQL 注入漏洞
- 响应时间(小时):缓解攻击所花费的时间
- 缓解策略:采取的对策
2.2 数据清洗与探索
python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 加载数据
df = pd.read_csv('global_cybersecurity_threats.csv') # 请替换为实际文件路径
# 查看数据基本信息
print(df.info())
print(df.describe())
# 查看各列唯一值数量
print(df.nunique())



从数据的基本信息中,我们可以发现:
- 数据集包含多个类别型变量(如国家、威胁类型、攻击向量等)和数值型变量(如数据泄露量、财务影响等)
- 一共3000个样本,且无缺失值存在
- 也可以发现类别型变的中类别的个数情况,如一共有7种不同的攻击类型。
三、单维度特征可视化
3.1 各年份攻击事件数量
python
plt.figure(figsize=(12, 6))
sns.countplot(x='年份', data=df, palette='viridis')
plt.title('Cybersecurity Attacks by Year (2015-2024)')
plt.xlabel('Year')
plt.ylabel('Number of Attacks')
plt.tight_layout()
plt.show()

观察结果:攻击事件数量呈现增长趋势,尤其在近5年攻击数量明显高于开始的5年的攻击数量,反映出网络安全威胁的不断加剧。
3.2 威胁类型分布
python
plt.figure(figsize=(12, 8))
sns.countplot(y='威胁类型', data=df, order=df['威胁类型'].value_counts().index, palette='plasma')
plt.title('Distribution of Cybersecurity Threat Types')
plt.xlabel('Number of Attacks')
plt.ylabel('Threat Type')
plt.tight_layout()
plt.show()

观察结果:恶意软件和DDoS攻击是最常见的威胁类型,占据较大比例。
3.3 受影响行业分布
python
plt.figure(figsize=(12, 8))
sns.countplot(y='目标行业', data=df, order=df['目标行业'].value_counts().index, palette='inferno')
plt.title('Distribution of Affected Industries')
plt.xlabel('Number of Attacks')
plt.ylabel('Industry')
plt.tight_layout()
plt.show()

观察结果:IT和银行行业是攻击的主要目标,可能因其数据价值较高。
3.4 数据泄露量分布
python
plt.figure(figsize=(12, 6))
sns.histplot(df['数据泄露量 (GB)'], kde=True, color='teal', bins=40)
plt.title('Distribution of Data Breach Volume (GB)')
plt.xlabel('Data Breached (GB)')
plt.tight_layout()
plt.show()

3.5 财务影响分布
python
plt.figure(figsize=(12, 6))
sns.histplot(df['财务影响 ($M)'], kde=True, color='coral', bins=40)
plt.title('Distribution of Financial Impact ($M)')
plt.xlabel('Financial Loss ($M)')
plt.tight_layout()
plt.show()

3.6 安全漏洞类型分布
python
plt.figure(figsize=(12, 6))
sns.countplot(x='安全漏洞类型', data=df, palette='rocket')
plt.title('Distribution of Severity Levels')
plt.xlabel('Security Vulnerability Type')
plt.ylabel('Number of Attacks')
plt.tight_layout()
plt.show()

四、多维度关系可视化
4.1 年份与威胁类型的关系
python
plt.figure(figsize=(15, 8))
sns.countplot(x='年份', hue='威胁类型', data=df, palette='tab20')
plt.title('Threat Types Over the Years')
plt.xlabel('Year')
plt.ylabel('Number of Attacks')
plt.legend(title='Threat Type', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

4.2 攻击源与威胁类型的关系
python
plt.figure(figsize=(15, 10))
sns.countplot(y='攻击向量', hue='威胁类型', data=df, palette='Set2')
plt.title('Relationship Between Attack Vectors and Threat Types')
plt.xlabel('Number of Attacks')
plt.ylabel('Attack Vector')
plt.legend(title='Threat Type', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

4.3 受影响行业与威胁类型的关系
python
plt.figure(figsize=(15, 10))
sns.countplot(y='目标, hue='威胁类型', data=df, palette='Dark2')
plt.title('Relationship Between Affected Industries and Threat Types')
plt.xlabel('Number of Attacks')
plt.ylabel('Industry')
plt.legend(title='Threat Type', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

4.4 不同威胁类型的数据泄露量与财务影响的关系
python
plt.figure(figsize=(12, 8))
sns.scatterplot(x='数据泄露量 (GB)', y='财务损失(单位:百万美元)', data=df, hue='威胁类型',alpha=0.6, color='purple')
plt.title('Relationship Between Data Breached and Financial Impact')
plt.xlabel('Data Breached (GB)')
plt.ylabel('Financial Loss ($M)')
plt.tight_layout()
plt.show()

4.5 安全漏洞类型与事件解决时间(小时)的关系
python
plt.figure(figsize=(12, 8))
sns.boxplot(x='安全漏洞类型', y='事件解决时间(小时)', data=df, palette='muted')
plt.title('Relationship Between Severity Type and Response Time')
plt.xlabel('Severity Type')
plt.ylabel('Response Time (Hours)')
plt.tight_layout()
plt.show()

4.6 使用的防御机制与威胁类型的关系
python
plt.figure(figsize=(15, 10))
sns.countplot(y='使用的防御机制', hue='威胁类型', data=df, palette='tab20b')
plt.title('Relationship Between Mitigation Strategies and Threat Types')
plt.xlabel('Number of Attacks')
plt.ylabel('Mitigation Strategy')
plt.legend(title='Threat Type', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

4.7 国家与目标行业的关系
python
# 提取前10个国家进行展示
top_countries = df['国家'].value_counts().index[:10]
country_industry_df = df[df['国家'].isin(top_countries)]
plt.figure(figsize=(15, 10))
sns.countplot(y='国家', hue='目标行业', data=country_industry_df, palette='Spectral')
plt.title('Relationship Between Countries and Affected Industries')
plt.xlabel('Number of Attacks')
plt.ylabel('Country')
plt.legend(title='Industry', bbox_to_anchor=(1, 1), loc='upper left')
plt.tight_layout()
plt.show()

五、总结与洞察
通过以上多维度的可视化分析,我们得出以下关键洞察:
-
攻击事件逐年增长:尤其在近几年,网络安全威胁呈现快速上升趋势,企业需加强防护能力。
-
行业差异显著:IT和银行行业是攻击的主要目标,因其数据价值高且系统复杂度高。
-
威胁类型集中:恶意软件和DDoS攻击是最常见的威胁类型,企业需针对性加强防护。
-
攻击向量与威胁类型关联紧密:例如网络钓鱼常与恶意软件相关联,SQL注入多与数据泄露相关。
-
数据泄露与财务损失正相关:泄露量越大,经济损失往往越高,凸显数据保护的重要性。
-
严重性级别影响响应时间:高危事件处理时间更长,需优化应急响应流程。
这些可视化结果为网络安全研究和防护策略制定提供了数据支持,帮助企业和组织更好地理解和应对网络安全威胁。