AI沉默的二十年，是数据和算力的厚积薄发，更是从机器学习到深度学习算法的一次次突破

1997年，IBM的"深蓝"击败国际象棋冠军卡斯帕罗夫，举世震惊，更是占据彼时媒体的头版头条。

只是对于大众而言，这又只是个热点新闻而已。热点过后，一切归于平静。

AI，对于普通人，终归是太遥远。

但AI从未停止过"搞大新闻"。

2011年，IBM的另一位"选手"------Watson，在美国综艺《危险边缘》（Jeopardy!）中，击败了人类冠军。Watson能理解自然语言提问，还能开玩笑，这让很多人第一次意识到：AI不仅能下棋，还能"听懂人话"。

2016年，AlphaGo（阿尔法狗）击败世界围棋冠军李世石，2017年又击败柯洁。围棋的复杂度远超国际象棋，AlphaGo的胜利，让全世界再次沸腾。中国媒体报道量单日超过60万篇，AI彻底走出了学术圈，成了全民话题。

但很少有人意识到，这场胜利不是天上掉下来的。它背后，是整整二十年的技术积累。

上一篇文章《AI的至暗历史：从万众期待到被政府撤资，AI的两次死亡徘徊》，我们回顾了AI了两次至暗时刻，而今天，我们来看看这二十年，AI在大众看不见的地方，悄无声息地进行地那一次又一次的升级迭代。那些在聚光灯亮起之前就已经搭建好的地基，才是AlphaGo能赢的真正原因。

三样东西到位了

如果说1956到1987年那三十一年，AI失败的根本原因是"太专用"，那1990年代之后，情况开始发生根本性的变化。因为三样关键的东西，在这个时期陆续到位了。

第一样：海量的数据。

互联网的兴起，让人类社会的信息量呈指数级增长。网站、博客、评论、图片、视频、电子书，以及各类应用产生的用户行为数据，每天都在以TB为单位涌入互联网。原来只能通过专家面对面获取的知识，现在只需要一个搜索框就能触达。这些数据，成了AI"学习"的养料。没有数据，再聪明的算法也是巧妇难为无米之炊。

第二样：足够强的算力。

个人电脑在游戏领域的快速发展，意外地推动了AI的算力革命。本来用于游戏图形渲染的GPU（显卡），被研究者发现用来做AI计算比传统CPU快得多。原来需要几周才能完成的AI模型训练，现在几天就能搞定。算力的突破，让很多以前"理论上可行但实际跑不动"的算法，变成了可以真正落地的技术。

第三样：从数据中学习的新方法。

前文提到，1950到1980年代的AI靠的是人工编写规则，这种方式成本高、灵活性差。1990年代之后，机器学习的思想开始成熟：与其让人写规则，不如让机器自己从数据中发现规律。你给它一万封邮件，标记哪些是垃圾邮件哪些不是，它自己就能总结出垃圾邮件的特征。不需要人一条条写"如果标题包含XX就是垃圾邮件"这种规则。

数据、算力、方法，三样东西凑齐了，AI的第二次春天，正式开始。

地基是怎么打好的

有了这三样基础，接下来就是一项一项技术攻关。1993年到2016年这二十多年，AI的基础技术几乎是在同时推进的，而且它们之间并非孤立发展，而是互相推动、互相加速。

机器学习 是这一切的底层方法论。它让机器从数据中自己"学"规律，而不是靠人一条条写规则。支持向量机（SVM）用于分类问题，决策树、随机森林用于预测分析。你现在收到的垃圾邮件自动归类、银行用的信用卡欺诈检测，背后都是机器学习在干活。

语音识别 是最早"出圈"的AI能力之一。2000年代，隐马尔可夫模型（HMM）让语音识别的准确率大幅提升。iPhone 4S在2011年推出Siri，让普通消费者第一次在手机上体验到了"跟机器说话"的感觉。国内的智能音箱、语音助手也是在这个基础上发展起来的。

图像识别 在2000年代中后期迎来了关键突破。卷积神经网络（CNN）在学术圈屡屡刷榜，只是那时候模型还不够深，准确率还没到"能用"的门槛。但技术的方向已经确定了，只差一个量变到质变的契机。如今你手机相册能自动识别"猫""狗""沙滩"，就是CNN的功劳。

文字识别（OCR） 在2000年左右就已经比较成熟了。扫描仪、相机拍下来的图片上的文字，能比较准确地识别并转成可编辑文本。你现在用手机拍一张菜单就能自动翻译，底层就是OCR技术。

自然语言处理（NLP） 让机器开始"懂"人类语言。2003年，Bengio等人提出神经网络语言模型，为后来的词嵌入（Word2Vec）、序列到序列模型（Seq2Seq）打下了基础。你今天用翻译软件、输入法联想、搜索引擎理解你的提问，都受益于NLP的进步。

强化学习 让机器学会了"试错"。通过"做对了给奖励、做错了扣分"的机制，机器可以在没有人工标注数据的情况下自己学会做决策。2016年AlphaGo战胜李世石，核心就是强化学习，它自己跟自己下了几千万局棋，才练出了那套碾压人类的"棋力"。

这些技术，单独拿出来，每一个都不足以让AI产生质变。但它们加在一起，构成了AI坚实的地基。

深度学习：串联一切的钥匙

2006年，杰弗里·辛顿提出了"深度学习"的概念。

这个名字听起来很玄，但核心思想其实很朴素：既然单个技术各有擅长，那就把它们叠起来，做成一个更深的网络。就像盖楼一样，一层处理基础的视觉或语言特征，再往上一层处理更复杂的组合，一层一层往上搭，最终实现从"识别"到"理解"的跨越。

深度学习就像一根线，把机器学习、图像识别、语音识别、自然语言处理这些散落的珍珠，串成了一条完整的项链。

2012年，这根线正式展示了它的威力。在图像识别领域最具权威的比赛ImageNet中，深度学习模型以压倒性优势胜出，错误率直接从26%砍到15%。这个降幅，在过去的好几年里都没人能做到。

学术界沸腾了。

但产业界似乎还没完全反应过来。那时候的深度学习，还只是在学术论文和实验室里发光发热，离真正的产品化、商业化还有一段距离。

不过，此时的AI就像春天埋下的种子，已经开始在泥土下面蠢蠢欲动了。而真正让种子破土而出的那场春雨，只需要再等五年。

2017年，Google的一篇论文即将发表，它的标题只有一句话。但这短短一句话，将彻底改变AI的走向，也将改变我们每个人的日常。