箱图在数据预处理中的应用

1. 箱图简介

箱型图是一种用作显示一组数据分布情况的统计图,因型状如箱子而得名。

1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。

箱型图示例

其中,中位数(50%)上四分位数(75%) 下四分位数(25%)都很好理解。
上边缘
下边缘
的概念是不确定的,一般有以下几种情况(不限于以下几种情况):

  1. 所有数据中的最大值和最小值
  2. 在[Q1-1.5IQR, Q3+1.5IQR]范围里的极小值和极大值 (通常被称为Tukey Boxplot)
  3. 在平均数的基础上上下浮动一个标准差
  4. 第9百分位数,第91百分位数
  5. 第2百分位数,第98百分位数
  6. 等等。。。

至于异常值,也就是比上边缘大,比下边缘小的值,如果上下边缘是左右数据中的最大值和最小值,那么就不会有异常值。

2. 数据预处理中的箱图

箱图最大的优势是以一种简单的方式显示了数据的分布情况。

而我们在数据预处理之前,整体上了解数据各个特征的分布情况是非常有必要的,通过箱图,了解数据的质量。

比如:

  1. 偏离中间值的情况,看中位数的位置
  2. Q1和Q3之间数据的量,看箱体的长短
  3. 异常值多不多,偏离大不大,通过调整上下边缘来查看

了解数据各个特征(也就是每列)的质量和分布情况,有助于后续决策如何清洗数据,如何选择合适的算法来分析不同的特征。

3. 示例

最后,通过一个简单的实例来演示如何通过箱图来检验数据的情况的。

数据来源:国家统计局历年粮食产量的统计数据。

数据比较多,这里为了演示,只取了3列来作图。

中稻和一季晚稻单位面积产量(公斤/公顷)

亚麻单位面积产量(公斤/公顷)

其他谷物单位面积产量(公斤/公顷)

... ...

黄红麻单位面积产量(公斤/公顷)

前3列数据如下:

python 复制代码
print(data)

根据3个特征箱图如下:

python 复制代码
box1, box2, box3 = data["中稻和一季晚稻单位面积产量(公斤/公顷)"], data["亚麻单位面积产量(公斤/公顷)"], data["其他谷物单位面积产量(公斤/公顷)"]

plt.title("sample for 箱图")
labels = ["中稻和一季晚稻", "亚麻", "其他谷物"]

plt.boxplot([box1, box2, box3], labels=labels)
plt.show()

从图中可以看出,其他谷物的数据分布比较平均,而中稻和一季晚稻的数据偏重于上半部,亚麻的数据没有明显的偏重。

此外,只有一个异常值(中稻和一季晚稻的零值数据)。

箱图的默认上下边缘数据是 Q3 + whis*(Q3-Q1) 和 Q1 - whis*(Q3-Q1),其中 whis = 1.5

我们可以通过调整 whis 的大小来调整上下边缘的值,比如:

python 复制代码
plt.boxplot([box1, box2, box3], labels=labels, whis=0.5)

这里 whis 设置为0.5,缩小了上下边缘的间距,异常值就增多了。

4. 总结

通过箱图,可以直观看出整个数据中各个特征的分布情况。

在数据预处理之前,用来了解收集数据的概况时大有帮助。

关于matplotlib绘图相关内容,可参考专栏: matplotlib

相关推荐
程序员小远3 小时前
软件测试之单元测试详解
自动化测试·软件测试·python·测试工具·职场和发展·单元测试·测试用例
心无旁骛~4 小时前
python多进程和多线程问题
开发语言·python
星云数灵4 小时前
使用Anaconda管理Python环境:安装与验证Pandas、NumPy、Matplotlib
开发语言·python·数据分析·pandas·教程·环境配置·anaconda
计算机毕设匠心工作室4 小时前
【python大数据毕设实战】青少年抑郁症风险数据分析可视化系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习
后端·python
计算机毕设小月哥4 小时前
【Hadoop+Spark+python毕设】智能制造生产效能分析与可视化系统、计算机毕业设计、包括数据爬取、Spark、数据分析、数据可视化、Hadoop
后端·python·mysql
计算机毕设小月哥7 小时前
【Hadoop+Spark+python毕设】中风患者数据可视化分析系统、计算机毕业设计、包括数据爬取、Spark、数据分析、数据可视化、Hadoop
后端·python·mysql
Keep_Trying_Go7 小时前
基于Zero-Shot的目标计数算法详解(Open-world Text-specified Object Counting)
人工智能·pytorch·python·算法·多模态·目标统计
计算机毕设匠心工作室7 小时前
【python大数据毕设实战】强迫症特征与影响因素数据分析系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习、实战教学
后端·python·mysql
Trouville018 小时前
Pycharm软件初始化设置,字体和shell路径如何设置到最舒服
ide·python·pycharm