1997年,IBM的"深蓝"击败国际象棋冠军卡斯帕罗夫,举世震惊,更是占据彼时媒体的头版头条。
只是对于大众而言,这又只是个热点新闻而已。热点过后,一切归于平静。
AI,对于普通人,终归是太遥远。
但AI从未停止过"搞大新闻"。
2011年,IBM的另一位"选手"------Watson,在美国综艺《危险边缘》(Jeopardy!)中,击败了人类冠军。Watson能理解自然语言提问,还能开玩笑,这让很多人第一次意识到:AI不仅能下棋,还能"听懂人话"。
2016年,AlphaGo(阿尔法狗)击败世界围棋冠军李世石,2017年又击败柯洁。围棋的复杂度远超国际象棋,AlphaGo的胜利,让全世界再次沸腾。中国媒体报道量单日超过60万篇,AI彻底走出了学术圈,成了全民话题。
但很少有人意识到,这场胜利不是天上掉下来的。它背后,是整整二十年的技术积累。
上一篇文章《AI的至暗历史:从万众期待到被政府撤资,AI的两次死亡徘徊》,我们回顾了AI了两次至暗时刻,而今天,我们来看看这二十年,AI在大众看不见的地方,悄无声息地进行地那一次又一次的升级迭代。那些在聚光灯亮起之前就已经搭建好的地基,才是AlphaGo能赢的真正原因。
三样东西到位了
如果说1956到1987年那三十一年,AI失败的根本原因是"太专用",那1990年代之后,情况开始发生根本性的变化。因为三样关键的东西,在这个时期陆续到位了。
第一样:海量的数据。
互联网的兴起,让人类社会的信息量呈指数级增长。网站、博客、评论、图片、视频、电子书,以及各类应用产生的用户行为数据,每天都在以TB为单位涌入互联网。原来只能通过专家面对面获取的知识,现在只需要一个搜索框就能触达。这些数据,成了AI"学习"的养料。没有数据,再聪明的算法也是巧妇难为无米之炊。
第二样:足够强的算力。
个人电脑在游戏领域的快速发展,意外地推动了AI的算力革命。本来用于游戏图形渲染的GPU(显卡),被研究者发现用来做AI计算比传统CPU快得多。原来需要几周才能完成的AI模型训练,现在几天就能搞定。算力的突破,让很多以前"理论上可行但实际跑不动"的算法,变成了可以真正落地的技术。
第三样:从数据中学习的新方法。
前文提到,1950到1980年代的AI靠的是人工编写规则,这种方式成本高、灵活性差。1990年代之后,机器学习的思想开始成熟:与其让人写规则,不如让机器自己从数据中发现规律。你给它一万封邮件,标记哪些是垃圾邮件哪些不是,它自己就能总结出垃圾邮件的特征。不需要人一条条写"如果标题包含XX就是垃圾邮件"这种规则。
数据、算力、方法,三样东西凑齐了,AI的第二次春天,正式开始。
地基是怎么打好的
有了这三样基础,接下来就是一项一项技术攻关。1993年到2016年这二十多年,AI的基础技术几乎是在同时推进的,而且它们之间并非孤立发展,而是互相推动、互相加速。
机器学习 是这一切的底层方法论。它让机器从数据中自己"学"规律,而不是靠人一条条写规则。支持向量机(SVM)用于分类问题,决策树、随机森林用于预测分析。你现在收到的垃圾邮件自动归类、银行用的信用卡欺诈检测,背后都是机器学习在干活。
语音识别 是最早"出圈"的AI能力之一。2000年代,隐马尔可夫模型(HMM)让语音识别的准确率大幅提升。iPhone 4S在2011年推出Siri,让普通消费者第一次在手机上体验到了"跟机器说话"的感觉。国内的智能音箱、语音助手也是在这个基础上发展起来的。
图像识别 在2000年代中后期迎来了关键突破。卷积神经网络(CNN)在学术圈屡屡刷榜,只是那时候模型还不够深,准确率还没到"能用"的门槛。但技术的方向已经确定了,只差一个量变到质变的契机。如今你手机相册能自动识别"猫""狗""沙滩",就是CNN的功劳。
文字识别(OCR) 在2000年左右就已经比较成熟了。扫描仪、相机拍下来的图片上的文字,能比较准确地识别并转成可编辑文本。你现在用手机拍一张菜单就能自动翻译,底层就是OCR技术。
自然语言处理(NLP) 让机器开始"懂"人类语言。2003年,Bengio等人提出神经网络语言模型,为后来的词嵌入(Word2Vec)、序列到序列模型(Seq2Seq)打下了基础。你今天用翻译软件、输入法联想、搜索引擎理解你的提问,都受益于NLP的进步。
强化学习 让机器学会了"试错"。通过"做对了给奖励、做错了扣分"的机制,机器可以在没有人工标注数据的情况下自己学会做决策。2016年AlphaGo战胜李世石,核心就是强化学习,它自己跟自己下了几千万局棋,才练出了那套碾压人类的"棋力"。
这些技术,单独拿出来,每一个都不足以让AI产生质变。但它们加在一起,构成了AI坚实的地基。
深度学习:串联一切的钥匙
2006年,杰弗里·辛顿提出了"深度学习"的概念。
这个名字听起来很玄,但核心思想其实很朴素:既然单个技术各有擅长,那就把它们叠起来,做成一个更深的网络。就像盖楼一样,一层处理基础的视觉或语言特征,再往上一层处理更复杂的组合,一层一层往上搭,最终实现从"识别"到"理解"的跨越。
深度学习就像一根线,把机器学习、图像识别、语音识别、自然语言处理这些散落的珍珠,串成了一条完整的项链。
2012年,这根线正式展示了它的威力。在图像识别领域最具权威的比赛ImageNet中,深度学习模型以压倒性优势胜出,错误率直接从26%砍到15%。这个降幅,在过去的好几年里都没人能做到。
学术界沸腾了。
但产业界似乎还没完全反应过来。那时候的深度学习,还只是在学术论文和实验室里发光发热,离真正的产品化、商业化还有一段距离。
不过,此时的AI就像春天埋下的种子,已经开始在泥土下面蠢蠢欲动了。而真正让种子破土而出的那场春雨,只需要再等五年。
2017年,Google的一篇论文即将发表,它的标题只有一句话。但这短短一句话,将彻底改变AI的走向,也将改变我们每个人的日常。