揭秘统计数据:如何用数据魔法揭示生活中的奥秘?

前言

你有没有遇到过,某天报表的数据突显异常,排查后发现原来是单位弄错了。

你有没有遇到过,某组数据看起来没啥感觉,但做成报表组合到一起看问题则会非常明显。

你有没有遇到过,有些凭直觉来感受的统计信息与仔细验算后的统计信息,最终得出的结论截然相反。

你有没有遇到过,某些根据统计结果得出的结论看起来没问题,但总觉得哪里不对劲。

我相信,只要你常看一些数据统计报表,或者会常做一些数据统计方面的工作,那你一定遇到过,大家常说数据不会骗人,但真的是这样吗?本篇文章主要就来揭秘一些既有趣、又能迷惑人的常见手段。

中奖率1%,那是不是连续抽100次就一定会中奖呢?

这是一个典型的反直觉现象,换句话说,抛硬币得到正面的概率为50%,显然不等于连续抛两次就一定会有一次为正面!实际上中奖率1%,也就意味着不中奖率为99/100,所以即使连续抽100次,不中奖率依然高达36%,实际上如果你连续抽400次还没中奖,那就真的是有作弊嫌疑了,因为连续抽400次还未中奖的概率大概只有1%。

幸存者偏差

来自百度百科解释:1941年,第二次世界大战中,美国哥伦比亚大学统计学瓦尔德教授(Abraham Wald)应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后返回营地的轰炸机数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是"我们应该强化机尾的防护",而军方指挥官认为"应该加强机翼的防护,因为这是最容易被击中的位置"。

实际上这也可以看作是一种反直觉现象,统计的样本也许不会骗人,但却忽视了样本只涵盖了能平安返回轰炸机,所以并不是机尾不容易被击中,而是被击中机尾的往往都无法返回了。

生活中要特别当心因为忽视了幸存者偏差而导致的问题,曾经有人对兽医院接收的从高层坠落的115只猫咪进行了调查,发现从9层及以上楼层坠落的猫咪的死亡率为5%,从不足9层的楼层坠落的猫咪死亡率为10%。所以推测,这是因为从较高楼层坠落的猫咪能够将身体伸展开,形成一种降落伞效应。显然,这个调查没有把那些从9层及以上坠落的已经奄奄一息没有被送到兽医院的猫咪考虑进来。

当然,还有一些调查统计,也会因为避开了幸存者偏差,最终出具了一些看似比较美好统计结果。

美国运通和法国旅游局的一项研究发现,大多数过去两年对法国进行过一次以上休闲旅游的美国人并不认为法国人不友好。他们究竟是如何得到这个结论的呢?

一项简单的调查如下:

  1. 过去两年你对法国进行过几次商务旅行?
  2. 过去两年你对法国进行过几次休闲(非商务)旅行?
  3. 你是否认为法国人不友好?

从研究人员得出的结论可以发现,他们将过去两年只去过一次的商务旅行的人,或将过去两年只去过一次休闲旅行的人,或从未去过法国的人,过滤掉了!

单从研究的结论上来看它是正确的,但它却具有欺骗性,它存在幸存者偏差。

有意思的反直觉场景

蒙提霍尔悖论

蒙提霍尔悖论又称三门问题,出自美国的电视游戏节目Let's Make a Deal。问题的名字来自该节目的主持人蒙提·霍尔(Monty Hall)。

这个游戏的玩法是:你被要求在三扇门中选择一扇,其中一扇后面有一辆车;其余两扇后面则是山羊。你选择了一道门,假设是一号门,然后知道门后面有什么的主持人,开启了另一扇后面有山羊的门,假设是三号门。他然后问你:"你想选择二号门吗?"

那么,转换你的选择对你来说是一种优势吗?你会选择换门,还是保持不变?

这个游戏的关键就在于,此时大多人凭直觉都会认为换不换概率都是50%,所以会选择相信第一直觉(心理学上的第一印象效应)。

我们可以分为下面三种情况进行分析

三个囚徒问题

与蒙提霍尔悖论类似的还有三个囚徒问题。

问题是这样的:监狱里有三个死刑犯,假设分别为A、B、C,现在典狱长决定赦免其中一名死刑犯,看守死刑犯的守卫知道赦免的是谁,但他不能直接说。

假设A死刑犯问看守,他们三个之间谁会被执行死刑,看守只能按照下面三种情况来回答:

  1. 如果B被赦免,看守就会说C被执行死刑了。
  2. 如果C被赦免,看守就会说B被执行死刑了。
  3. 如果A自己被赦免,看守就会在B和C中随机说一个被执行死刑了。

好了,假设现在看守人员告诉A,B将被执行死刑,A犯人听了以后非常高兴,因为他觉得他被赦免的概率一下从1/3提升到了1/2,而看守却告诉他你被赦免的概率依然是1/3,高兴的应该是C,因为他被赦免的概率提升到了2/3。

我们依然可以分为三种情况进行分析

如果是这种情况,看守只能说B被执行死刑,A原本被赦免的概率是1/3,所以整体概率就变成了1/3 * 1 = 1/3,可以看出,第二种情况A被赦免和第三种情况A被执行死刑的比值是:1/6:1/3,也就是1:2,所以A被赦免的概率是1/3,而C则变成了2/3。

小心被图表欺骗

缺少零值

如果下面两张表分别表示了A公司B公司的销售额,或收入、支出等等之类的,你一定会觉得A变化比较大,而B公司比较稳定。但实际上下面两张表出自同一组数据,只是第一张表中缺少了零值。

有了零值以后,曲线平稳了许多。

当柱状图忽略的零值,常常用来人为提升某种利益关系的对比。

如下图,蓝色看起来明显要差很多,大约是5倍的关系。

但实际上相差只有2倍多。

双坐标陷阱

下面图表中,蓝线对应纵坐标左边的数值,橘线对应纵坐标右边的数值。

看起来蓝线的增长明显要高于橘线的增长。

现在呢!你还认为蓝线的增长高于橘线的增长吗?

这也是一种常用的为了表达某种观点而刻意为之的一种行为,当你想表达蓝线增长率大约橘线增长率时,就放第一张表,反之则放第二张表。

范围区间陷阱

让支持率看起来更加漂亮

如果这样统计支持率看起来不太好看,30-39年龄段的支持率只有18%

调整一下年龄段区间,这样支持率看起来好多了。

改变色块的取值范围

左图是来自凤凰新闻,右图来自BBC。虽然两张地图都划了 5 个色块,但 BBC 将确诊病例大于 500 例的省份都赋予最严重的深红色,导致了当时确诊 529 例的重庆和确诊 51986 例的湖北是一样的颜色,很有误导性。而凤凰网的数据划分范围就合理的多,是以 10 的次方为分界线。

当心被平均值欺骗

假设下面是三家公司的每个员工工资收入报表。

A公司员工平均收入:4025元,是三家公司里面平均收入最高的,但实际上大多数收入都被一个人独占了(收入最高的员工达到:23000),而B公司的平均收入也比C公司要高,但实际上收入的波动也很大,中位数为3100,而C公司的中位数为3600,所以还得再考察清楚。

考虑偏差

在下面这个考试成绩的报表中,虽然A和B的总分都是140分,但明显A的数学成绩是非常突出的(A的正偏差值非常大)。

当心基数较小时

波士顿一份报纸报道说,韦尔弗利特当年的谋杀率是马萨诸塞州之最,每10万名居民中就有40起谋杀案,这个数字是波士顿的两倍多,后者每10万名居民中只有17起谋杀案。

这个统计是怎么来的呢?首先是有一名男子在30公里外犯下谋杀案,然后在韦尔弗利特警察局自首,但最关键的是韦尔弗利特只有2491名居民,再加上一项错误的统计,最终变成了每10万居民中就有40起谋杀。而波士顿发生了98起谋杀案,相当于每10万居民中有17起谋杀案。

所以将2491与100000放在一起进行比对,2491的波动当然会比100000更大,尤其是异常数据带来的巨大影响。

相关性的误会

三段论推理是演绎推理中的一种简单推理判断,通过大前提、小前提、结论完成推理。亚里士多德提出的一个著名三段论:"所有的人都会死;苏格拉底是人;所以,苏格拉底必定会死。"

那么:"苏格拉底会死;动物也会死;所以,苏格拉底是动物。"

类似的问题,常常会体现在相关性的统计数据上。

美国的啤酒销量和已婚人口的数量,二者的相关性达到了惊人的99%。面对这种强烈的相关性,我们能够认为饮酒会导致婚姻?或者倒过来,我们能够认为婚姻会导致饮酒?

实际上,正确的解释是,随着时间的增长,啤酒消费量也会增长,类似的,婚姻、婴儿、汽车、鞋子、大学入学率、心脏病以及其他许多事物也会增长。穿鞋会导致婴儿数量增长吗?开车会导致心脏病吗?这些事物的增长源自人口的增长,它们之间不一定存在任何关系。

图形化欺骗

下面这张图想表达什么?20是10的2倍,30是10的3倍,但图中可不是按照这个比例来表示的。

真是的比例关系看上去应该是这样的

相关推荐
sre运维3 天前
运维人员必备的 Mac Zsh 配置技巧
程序员
陈随易3 天前
anime,超强JS动画库和它的盈利模式
前端·后端·程序员
陈随易4 天前
秦少卫-耗时5个月收入超过北京工资的超级独立开发者
前端·后端·程序员
陈随易5 天前
wangEditor,从开源、停更到重生
前端·后端·程序员
黑心萝卜三条杠5 天前
【Go语言】深入理解Go语言:并发、内存管理和垃圾回收
google·程序员·go
一只爱撸猫的程序猿5 天前
在SpringBoot 项目简单实现一个 Jar 包加密,防止反编译
spring boot·安全·程序员
TF男孩5 天前
独立开发上班后:我的故事,你的酒,一腔沉默往前走
程序员
肖哥弹架构6 天前
ScheduledThreadPool线程池设计/场景案例/性能调优/场景适配(架构篇)
java·后端·程序员
陈随易6 天前
兔小巢收费引发的论坛调研Node和Deno有感
前端·后端·程序员
肖哥弹架构7 天前
SingleThreadScheduledExecutor线程池设计/场景案例/性能调优/场景适配(架构篇)
java·后端·程序员