"大数据"是一个模糊的术语,却迅速成为企业家、科学家、政府和媒体关注的现象。

五年前,来自谷歌的一组研究人员在世界顶级科学期刊《自然》(Nature)上宣布了一项了不起的成就。他们不需要任何体检结果,就能追踪流感在美国的传播情况。更重要的是,他们的速度比美国疾病控制与预防中心(CDC)还要快。谷歌的追踪只有一天的延迟,而CDC根据医生诊所的报告汇总出疫情图景则需要一周甚至更长时间。谷歌之所以更快,是因为他们通过人们在网上搜索的内容与是否出现流感症状之间建立了一种关联。
"谷歌流感趋势"(Google Flu Trends)不仅快速、准确、廉价,而且它是"无理论依据"的。谷歌的工程师们并不费心去建立假设,去推测哪些搜索词------比如"流感症状"或"附近的药店"------可能与疾病本身的传播有关。谷歌团队只是提取了前5000万个最热门的搜索词,然后让算法去完成剩下的工作。

FirstFT 是我们新推出的每日必备邮件简报,为您汇集全网最佳故事。
"谷歌流感趋势"的成功成为了商业、技术和科学领域热门新趋势------"大数据"------的象征。兴奋的记者们问道:科学能从谷歌那里学到什么?
和许多流行词一样,"大数据"是一个模糊的术语,经常被那些想要兜售东西的人挂在嘴边。有些人强调现在存在的数据集的规模之大------例如,大型强子对撞机(LHC)的计算机每年存储15PB的数据,相当于你最喜欢的音乐播放大约15000年的量。
但许多公司感兴趣的"大数据"其实是我们所说的"现成数据"(found data),即网络搜索、信用卡支付和手机向最近基站发送信号时留下的"数字废气"(digital exhaust)。"谷歌流感趋势"就是建立在这种现成数据之上的,这也是我这里感兴趣的数据类型。这类数据集可能比LHC的数据还要大(Facebook的数据就是如此),但同样值得注意的是,相对于其规模而言,收集这些数据的成本很低;它们是出于不同目的收集的数据点的杂乱拼贴;而且它们可以实时更新。随着我们的交流、休闲和商业活动转移到互联网上,而互联网又转移到了我们的手机、汽车甚至眼镜中,生活正以一种十年前难以想象的方式被记录和量化。
大数据的支持者提出了四个令人兴奋的主张,每一个都体现在"谷歌流感趋势"的成功中:
-
数据分析能产生出奇准确的结果;
2.每一个数据点都可以被捕捉到,使旧的统计抽样技术过时;
-
不必再为"什么导致了什么"(因果关系)而烦恼,因为统计相关性告诉了我们想知道的一切;
-
不需要科学或统计模型,引用2008年发表在《连线》杂志上一篇名为《理论的终结》的挑衅性文章的话来说,"有了足够的数据,数字自己会说话"。
不幸的是,这四个信条充其量只是乐观的过度简化。而在最坏的情况下,据剑桥大学公众风险理解温顿教授大卫·斯皮格豪特(David Spiegelhalter)所言,这些可能完全是"一派胡言。绝对的废话。"
现成数据支撑着新的互联网经济,谷歌、Facebook和亚马逊等公司都在寻求通过我们的"数据废气"来理解我们生活的新方法。自从爱德华·斯诺登(Edward Snowden)泄露了美国电子监控的规模和范围后,很明显,安全部门也同样痴迷于从我们的数据废气中能学到什么。

咨询顾问们敦促那些对数据一无所知的人赶紧了解大数据的潜力。麦肯锡全球研究院最近的一份报告估算,通过更好地整合和分析从临床试验到医疗保险交易再到智能跑鞋等产生的数据,美国医疗系统每年可以节省3000亿美元------相当于每个美国人节省1000美元。
但是,尽管大数据向科学家、企业家和政府承诺了很多,但如果我们忽视一些非常熟悉的统计学教训,它注定会让我们失望。
"大数据中存在很多小数据问题,"斯皮格豪特说,"它们不会因为你拥有大量数据就消失。相反,它们会变得更糟。"
在那篇最初的《自然》论文发表四年后,《自然》新闻栏目带来了一个悲伤的消息:最近的流感爆发夺走了一个意想不到的受害者------"谷歌流感趋势"。在连续几个冬天可靠地提供了迅速而准确的流感爆发报告后,这个无理论、数据丰富的模型失去了对流感走向的嗅觉。谷歌的模型显示流感爆发非常严重,但当CDC缓慢而稳定的数据最终出炉时,结果显示谷歌对流感类疾病传播的估计夸大了近两倍。
问题在于谷歌不知道------也无从知道------是什么将搜索词与流感传播联系在一起。谷歌的工程师并没有试图弄清楚因果关系。他们只是在数据中寻找统计模式。他们关心的是相关性而非因果性。这在大数据分析中很常见。弄清楚"什么导致了什么"很难(有人说甚至是不可能的)。弄清楚"什么与什么相关"则便宜和容易得多。这就是为什么根据维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)和肯尼斯·库克耶(Kenneth Cukier)的《大数据时代》一书所说,"因果关系不会被抛弃,但它正被从意义的主要源泉的神坛上推下来"。
但是,仅仅基于相关性的无理论分析必然是脆弱的。如果你不知道相关性背后的原因,你就不知道什么可能会导致这种相关性破裂。对"流感趋势"失败的一种解释是,2012年12月的新闻充斥着关于流感的恐怖故事,这些故事引发了健康人的网络搜索。另一种可能的解释是,谷歌自己的搜索算法"移动了球门柱"(改变了规则),因为它开始在人们输入医疗症状时自动建议诊断结果。

"谷歌流感趋势"会利用新数据重新校准并卷土重来------这理所应当。我们可以轻松收集和分析海量数据集,这带来的更广泛机会有很多理由让我们感到兴奋。但除非我们吸取这次事件的教训,否则我们将重蹈覆辙。
统计学家在过去200年里一直在研究当我们试图通过数据了解世界时,会有什么样的陷阱在等着我们。如今的数据更大、更快、更便宜------但我们不能假装陷阱都已经变得安全了。它们并没有。
1936年,共和党人阿尔弗雷德·兰登(Alfred Landon)竞选总统,对手是富兰克林·德拉诺·罗斯福(Franklin Delano Roosevelt)。受人尊敬的杂志《文学文摘》(The Literary Digest)承担了预测结果的责任。它进行了一次野心勃勃的邮政民意调查,目标是覆盖1000万人,即四分之一的选民。寄回的如洪水般的回复难以想象,但《文摘》似乎很享受这项任务的规模。8月下旬,它报道说:"下周,这1000万人的第一批答复将开始像潮水一样涌入,经过三次检查、核实、五次交叉分类和汇总。"
在两个月内统计了惊人的240万份回复后,《文学文摘》宣布了结论:兰登将以55%对41%的优势获胜,少数选民支持第三位候选人。
选举结果却截然不同:罗斯福以61%对37%的优势碾压兰登。更让《文学文摘》痛苦的是,民意调查先驱乔治·盖洛普(George Gallup)进行的一项规模小得多的调查,结果却更接近最终投票,预测罗斯福将轻松获胜。盖洛普先生明白一些《文学文摘》不明白的事情:在数据方面,规模并不是一切。
民意调查是基于广大选民群体的样本。这意味着民意测验者需要处理两个问题:抽样误差和抽样偏差。
抽样误差反映了这样一种风险:纯粹出于偶然,随机抽取的意见样本不能反映总体的真实观点。民意调查中报告的"误差幅度"反映了这种风险,样本越大,误差幅度越小。对于许多目的来说,1000次访谈的样本已经足够大,据报道盖洛普先生进行了3000次访谈。
但是,如果3000次访谈是好的,为什么240万次访谈不是好得多呢?答案是抽样误差有一个更危险的朋友:抽样偏差。抽样误差是指随机抽取的样本纯粹出于偶然不能反映基础总体;而抽样偏差是指样本根本就不是随机抽取的。乔治·盖洛普煞费苦心地寻找一个无偏差的样本,因为他知道这比寻找一个大样本重要得多。
《文学文摘》为了追求更大的数据集,在偏差样本的问题上栽了跟头。它向自己根据汽车登记和电话簿编制的名单上的人寄出了表格------这个样本,至少在1936年,由于包含更多富裕阶层而比例失调。使问题更复杂的是,兰登的支持者似乎更愿意寄回他们的答案。这两种偏差的结合足以注定《文学文摘》民调的失败。乔治·盖洛普的调查员每采访一个人,《文学文摘》就收到800份回复。他们所有的辛苦换来的只是对错误答案的一个非常精确的估计。
大数据热潮有可能让《文学文摘》的一幕重演。因为现成的数据集太杂乱,很难弄清楚里面潜伏着什么偏差------而且因为它们太大了,一些分析师似乎认为抽样问题不值得担心。其实很值得。
牛津互联网研究所教授、《大数据时代》的合著者维克托·迈尔-舍恩伯格告诉我,他倾向的大数据集定义是"N = All"(样本即总体)------即我们不再需要抽样,因为我们拥有整个背景总体。选举监票官不是用代表性计票来估算选举结果:他们计算选票------所有的选票。当"N = All"时,确实不存在抽样偏差的问题,因为样本包括了每个人。
但是,"N = All"真的是我们正在考虑的大多数现成数据集的恰当描述吗?可能不是。"我会质疑这种'一个人可以拥有所有数据'的观念,"伦敦大学学院(UCL)的计算机科学家兼统计学教授帕特里克·沃尔夫(Patrick Wolfe)说。
Twitter就是一个例子。原则上,记录和分析Twitter上的每一条消息并用它来得出关于公众情绪的结论是可能的。(实际上,大多数研究人员只使用那个巨大的数据"消防水管"的一小部分。)但是,虽然我们可以查看所有的推文,但Twitter用户并不能代表整个人口。(根据皮尤研究中心互联网项目的数据,2013年,美国的Twitter用户中年轻人、城市或郊区居民以及黑人的比例过高。)
对于杂乱的现成数据堆,总是存在一个问题:谁和什么被遗漏了?《数字感》(Numbersense)一书的作者、数据分析师凯泽·冯(Kaiser Fung)警告说,不要简单地假设我们拥有所有重要的东西。"N = All往往是对数据的假设,而不是事实,"他说。
想想波士顿的"Street Bump"智能手机应用程序,它使用手机的加速度计来检测坑洼,而无需市政工人巡逻街道。当波士顿市民下载该应用程序并开车四处转悠时,他们的手机会自动通知市政厅需要修复路面。解决所涉及的技术挑战产生了一个相当美妙的、信息丰富的数据废气,以几年前无法想象的方式解决了一个问题。波士顿市自豪地宣称,"数据为城市提供了实时信息,用于修复问题和规划长期投资。"
然而,如果任由"Street Bump"自行运作,它实际上生成的是一张坑洼地图,系统性地偏向于那些拥有智能手机的人更多的年轻、富裕地区。"Street Bump"确实为我们提供了"N = All",因为每一部启用该应用的手机遇到的每一次颠簸都被记录下来了。但这并不等同于记录每一个坑洼。正如微软研究员凯特·克劳福德(Kate Crawford)指出的那样,现成数据包含系统性偏差,需要仔细思考才能发现并纠正这些偏差。大数据集可能看起来很全面,但"N = All"往往是一个诱人的错觉。
然而,当有钱可赚时,谁在乎因果关系或抽样偏差呢?当全球各地的企业考虑到美国折扣百货商店塔吉特(Target)取得的惊人成功时,肯定都在垂涎三尺,正如查尔斯·杜希格(Charles Duhigg)在2012年《纽约时报》上著名的报道那样。杜希格解释说,塔吉特收集了大量关于其客户的数据,并且非常善于分析这些数据,以至于它对消费者的洞察力看起来就像魔法一样。
杜希格的杀手级轶事是关于一名男子冲进明尼阿波利斯附近的一家塔吉特商店,向经理抱怨公司给他十几岁的女儿寄送婴儿衣服和孕妇装的优惠券。经理解释并道歉,后来又打电话再次道歉------结果却被告知那个少女确实怀孕了。她父亲并不知道。塔吉特在分析了她购买的无味湿巾和镁补充剂后,知道了。
统计巫术?其实有一个更平凡的解释。
"这里存在一个巨大的误报(假阳性)问题,"凯泽·冯说,他多年来一直在为零售商和广告商开发类似的方法。冯的意思是,我们没有听到那些收到婴儿装优惠券但并没有怀孕的女性的无数故事。
听到这个轶事,很容易假设塔吉特的算法是绝对正确的------每一个收到连体衣和湿巾优惠券的人都怀孕了。这种可能性微乎其微。事实上,可能孕妇收到此类优惠仅仅是因为塔吉特邮件列表上的每个人都收到了此类优惠。在考虑每一个"命中"背后有多少次"失误"之前,我们不应该相信塔吉特雇佣了读心者的说法。
在查尔斯·杜希格的叙述中,塔吉特混入了一些随机优惠,比如酒杯的优惠券,因为如果怀孕的顾客意识到公司的电脑如此私密地了解她们,她们会感到害怕。

冯有另一种解释:塔吉特混合其优惠并不是因为给一个怀孕的女人寄一本全是婴儿用品的优惠券书很奇怪,而是因为公司知道很多那样的优惠券书最终会寄给根本没有怀孕的女性。
这些都不是说这种数据分析毫无价值:它可能利润丰厚。即使定向特价优惠的准确性只有适度提高,也是值得争取的。但是,不应将盈利能力与全知全能混为一谈。
2005年,流行病学家约翰·伊奥尼迪斯(John Ioannidis)发表了一篇研究论文,标题不言自明:"为什么大多数发表的研究发现都是错误的"。这篇论文作为对一个严重问题的挑衅性诊断而闻名。伊奥尼迪斯工作背后的关键思想之一是统计学家所说的"多重比较问题"。
在检查数据中的模式时,通常会问这种模式是否可能是偶然出现的。如果观察到的模式不太可能随机出现,我们称该模式具有"统计显著性"。
当研究人员查看许多可能的模式时,就会出现多重比较问题。考虑一项随机试验,其中一些小学生服用维生素,另一些服用安慰剂。维生素有效吗?这完全取决于我们要"有效"是什么意思。研究人员可以查看孩子的身高、体重、蛀牙率、课堂行为、考试成绩,甚至(等待之后)查看25岁时的犯罪记录或收入。然后还有组合需要检查:维生素对较穷的孩子、较富的孩子、男孩、女孩有影响吗?测试足够多不同的相关性,侥幸的结果就会淹没真正的发现。
有各种方法可以处理这个问题,但在大数据集中问题更为严重,因为可能的比较数量远远多于要比较的数据点。如果不进行仔细分析,真实模式与虚假模式的比例------即信噪比------很快就会趋近于零。
更糟糕的是,解决多重比较问题的方法之一是透明度,允许其他研究人员弄清楚测试了多少假设,以及有多少相反的结果因为看起来不够有趣而未能发表,正躺在抽屉里积灰。然而,现成的数据集很少是透明的。亚马逊和谷歌、Facebook和Twitter、塔吉特和特易购(Tesco)------这些公司并不打算与你或其他人分享他们的数据。
新的、庞大的、廉价的数据集和强大的分析工具将带来回报------这一点无人怀疑。在少数情况下,对超大型数据集的分析已经创造了奇迹。剑桥大学的大卫·斯皮格豪特指出了谷歌翻译(Google Translate),它通过统计分析数亿份由人类翻译的文档并寻找它可以复制的模式来运作。这是计算机科学家所说的"机器学习"的一个例子,它可以在没有预先编程语法规则的情况下提供惊人的结果。谷歌翻译是我们所拥有的最接近无理论、数据驱动的算法黑盒子的东西------斯皮格豪特说,这是"一项了不起的成就"。这一成就是建立在对海量数据集的巧妙处理之上的。
但是,大数据并不能解决几个世纪以来一直困扰着统计学家和科学家的问题:洞察力的问题,即推断正在发生什么,并弄清楚我们如何干预以使系统变得更好。
"我们要有新资源了,"伦敦帝国理工学院的大卫·汉德(David Hand)教授说,"但没有人想要'数据'。他们想要的是答案。"
利用大数据产生这些答案将需要统计方法的巨大进步。
"现在就像是狂野的西部,"UCL的帕特里克·沃尔夫说,"聪明而有动力的人会想方设法利用每一种工具从这些数据集中获得意义,这很酷。但目前的我们有点像是在盲目飞行。"
统计学家们正在争先恐后地开发新方法来抓住大数据的机遇。这些新方法至关重要,但它们将建立在旧的统计教训之上,而不是忽视它们。
回想一下大数据的四个信条。如果我们简单地忽略误报(如塔吉特的怀孕预测器),那么出奇的准确性就很容易被高估。"因果关系已被拉下神坛"的说法,如果我们在稳定的环境中进行预测是可以的,但如果世界正在发生变化(如"流感趋势"的情况)或者如果我们自己希望改变世界,那就行不通了。"N = All"因此抽样偏差无关紧要的承诺,在大多数重要的情况下根本不是真的。至于"有了足够的数据,数字自己会说话"的想法------在虚假模式远多于真实发现的数据集中,这似乎无可救药地天真。
"大数据"已经到来,但大洞察尚未到来。现在的挑战是解决新问题并获得新答案------而不是以前所未有的更大规模重复同样的旧统计错误。