文章目录
一、箱形图的介绍
箱形图又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理,快速识别异常值。箱形图最大的优点就是不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据的清洗。箱形图不受异常值的影响,这很重要。
形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
John Tukey先生1915年出生于美国麻省的新贝德福德。他22岁的时候在布朗大学获得了硕士学位,之后又在普林斯顿大学拿到了化学博士。有趣的是,他并没有直接开始让他青史留名的统计学工作,而是在二战期间进入了火控研究室,在那里,大量武器相关的研究最终都转而需要先解决统计学问题。从此,Tukey改变了自己的人生方向,一代统计学大师即将出现。
二、六大因数
我们以一组序列数为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37 (共14个)讲解这六大因"数
1、下四分位数Q1
等于该样本中所有数值由小到大排列后第25%的数字。
确定四分位数的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
根据位置,计算相应的四分位数(以数组为例)。
Q1所在的位置=(14+1)/4=3.75,
Q1=0.25×第三项+0.75×第四项=0.25×17+0.75×19=18.5;
2、中位数(第二个四分位数)Q2中位数,等于该样本中所有数值由小到大排列后第50%的数字。
Q2所在的位置=2(14+1)/4=7.5,
Q2=0.5×第七项+0.5×第八项=0.5×25+0.5×28=26.5;
3、上四分位数Q3等于该样本中所有数值由小到大排列后第75%的数字
计算方法同下分位数。
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一项+0.25×第十二项=0.75×34+0.25×35=34.25;
4、上限上限是非异常范围内的最大值。
首先要知道什么是四分位距如何计算的?
四分位距(interquartile range, IQR),又称四分差。
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
5、下限下限是非异常范围内的最小值。
下限=Q1-1.5IQR
6、异常值在内限与外限之间的异常值为温和的异常值(mild outliers)
在外限以外的为极端的异常值(extreme outliers)
三、Box plot的应用
下图是不同地区某工程师的薪酬统计情况:
图中的红线显然是各个城市中游水平的工程师能够获得的薪资标准,上边的蓝线区间为中上游,下边的蓝线区间为中下游,以此类推。简而言之,样本人群被四等分了。
上海、北京、深圳的工程师,薪资范围接近,但是中上游水平的人,北京地区能获得更高的薪资,因为中位数(Q2)的位置更高。西安、长沙、天津则不利于工程师的发展。杭州的水平接近北上深,但是薪资上限受到一定限制
四、箱形图的优劣势
1.直观明了地识别数据批中的异常值
上文讲了很久的识别异常值,其实箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。
2.利用箱线图判断数据批的偏态和尾重
对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);
而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
3.利用箱线图比较几批数据的形状
同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。如上图,可直观得看出第三季度各分公司的销售额大体都在下降。
但箱形图也有他的局限性,比如:不能精确地衡量数据分布的偏态和尾重程度;对于批量比较大的数据,反映的信息更加模糊以及用中位数代表总体评价水平有一定的局限性。
五、图形拓展
一些柱状图中作者会添加误差线来给数值增加误差范围,看起来和箱线图有点相似。箱子虽好,别分不清!误差线可以用标准差(平均偏差)或标准误差,一般通用的是这两个
K 线图,原名蜡烛图,又称阴阳图、棒线、红黑线或蜡烛线,常用于展示股票交易数据。虽然和箱形图长得有点像,但二者几乎是完全不同的图表。