深度学习 — 从人工智能到深度学习的演进之路(一)

一、人工智能的终极矛盾:莫拉维克悖论

远在古希腊时期,人类就梦想着创造能自主思考的机器------从皮格马利翁的加拉蒂亚,到代达罗斯的塔洛斯,再到赫淮斯托斯的潘多拉。千年之后,当人类第一次构思可编程计算机时,就已经在思考计算机能否变得智能。

但 AI 研究者们很快发现了一个深刻的矛盾,后来被称为莫拉维克悖论(Moravec's Paradox)

对人类困难的抽象任务(如象棋、数学推导),计算机反而容易解决;而对人类毫不费力的直觉任务(如识别人脸、理解语言),计算机却极其困难。

IBM 的深蓝在 1997 年击败了国际象棋世界冠军 Garry Kasparov。国际象棋仅有 64 个位置和 32 枚棋子,完全可以由一组形式化规则来描述。设计出成功的策略是巨大成就,但向计算机"描述"象棋这个问题本身并不难。

真正的难题在于:一个人的日常生活需要关于世界的巨量知识------什么是"影子"、一把椅子从侧面看和从正面看为什么是同一把椅子、一个人拿着电动剃须刀的时候仍然是一个人......这些知识是主观的、直观的,根本无法用形式化的规则穷尽描述。

这就引出了 AI 的核心问题:如何让计算机获得这些非形式化的、人类凭直觉掌握的知识?

二、AI 方法的四个发展阶段

书中梳理了解决这个核心问题的四代方法,每一代都是对前一代局限性的突破:

2.1 第一代:知识库方法 ------ 硬编码世界知识

核心思路:将人类关于世界的知识用形式化语言写成规则,输入给计算机。

代表项目:Cyc(始于 1984 年)

Cyc 项目包括一个推断引擎和一个用 CycL 语言描述的声明数据库,这些声明全部由人类监督者手工输入。其目标是建立一个涵盖所有常识的数据库。

经典失败案例:Cyc 无法理解"Fred 在早上剃须"这个简单故事。它的推理过程如下:

  1. Cyc 知道:人体不包含电气零件
  2. Cyc 发现:Fred 正拿着一个电动剃须刀(电气设备)
  3. Cyc 推断:实体"正在剃须的 Fred"(FredWhileShaving)含有电气部件
  4. Cyc 产生困惑:Fred 在刮胡子的时候是否仍然是一个人?

致命缺陷:这个笨拙的过程暴露了硬编码方法的根本困境------世界的复杂性是无穷的,任何有限的规则集都无法完整描述常识。人类的常识推理依赖于数以亿计的隐式假设,而这些假设我们自己甚至都说不清楚。

2.2 第二代:经典机器学习 ------ 从数据中学习映射

核心突破:与其硬编码知识,不如让系统从数据中自动提取模式。

原理:给定人工设计的特征(feature),机器学习算法学习特征与结果之间的映射关系。

具体例子

  • 逻辑回归判断剖腹产 :医生提供一组特征(是否有子宫疤痕、胎位如何等),逻辑回归学习这些特征如何与各种结果相关联。但关键在于------它无法影响特征的定义方式。如果把患者的 MRI 原始扫描(像素)作为输入,它将完全无法工作,因为单个像素与分娩并发症之间的相关性微乎其微。
  • 朴素贝叶斯区分垃圾邮件:基于词频等人工特征来分类。

核心局限:性能严重依赖于人工设计的特征。对于很多任务,我们根本不知道应该提取哪些特征。书中举了一个生动的例子:

假设我们想检测照片中的汽车。我们知道汽车有轮子,所以想用"车轮是否存在"作为特征。但根据像素值来描述"车轮看上去像什么"几乎不可能------同一个车轮的图像会因为阴影、光照、视角、遮挡等因素而千差万别。

表示的力量 :书中用了一个极其精妙的例子来说明数据表示的重要性。假设在散点图中有两类数据需要用一条线分开:在笛卡尔坐标下,这两类数据混杂在一起,根本无法线性分割。但只要转换到极坐标系,一条简单的垂直线就能完美分开。数据没变,变的只是表示方式,而任务从"不可能"变成了"轻而易举"。

这说明:阿拉伯数字比罗马数字更容易做算术运算,不是因为数字本身变了,而是因为表示更好了。表示的选择对机器学习性能的影响是决定性的。

2.3 第三代:表示学习 ------ 自动发现特征

核心突破:不仅学习特征到输出的映射,还学习特征本身的构造方式。

典型代表:自编码器(Autoencoder)

自编码器由两部分组成:

  • 编码器函数:将输入数据转换为一种不同的内部表示(通常是低维的)
  • 解码器函数:将内部表示还原回原来的形式

训练目标:输入经过编码再解码后,尽可能完整地保留信息。这迫使编码器必须学到数据中最本质的结构------那些真正重要的变差因素(factors of variation)。

什么是变差因素?

这是一个核心概念。变差因素指影响观察数据的潜在原因------它们通常不能被直接观察到:

  • 分析语音时:变差因素包括说话者的年龄、性别、口音和正在说的词语
  • 分析汽车图像时:变差因素包括汽车的位置、颜色、太阳的角度和亮度

在现实应用中,困难源于多个变差因素同时影响每一个数据点。比如一张夜晚拍摄的红色汽车照片,单个像素的值几乎接近黑色(因为夜晚光照),汽车轮廓的形状取决于拍摄视角。大多数应用需要我们"理清"这些变差因素,只关注我们需要的那些。

表示学习的困境:从原始数据中提取高层次的抽象特征(如"说话口音")本身就需要接近人类水平的理解能力,这几乎和解决原问题一样困难。

2.4 第四代:深度学习 ------ 层次化表示学习

核心突破:通过多层简单表示来逐步构建复杂表示,解决了表示学习中"一步到位"的困境。

深度学习的关键洞察:

  • 第一层:比较相邻像素的亮度来识别边缘
  • 第二层:将边缘组合成角和轮廓
  • 第三层:将角和轮廓组合成物体部件(眼睛、车轮)
  • 最终层:将部件组合成完整对象的识别结果

每一层只做一小步抽象,但层层叠加后就能完成从"像素"到"概念"的跨越。

深度学习模型的典型例子 是前馈深度网络(也称多层感知机, MLP)。它本质上是一个将输入映射到输出的数学函数,只不过这个函数由许多较简单的函数复合而成。每一次函数应用都为输入提供了一个新的表示。

三、理解"深度"的两个视角

书中提出了两种理解模型"深度"的方式,它们从不同角度揭示了深度的本质。

视角一:计算图的深度(顺序指令数)

将模型看作从输入到输出的计算流程图,最长路径的长度就是深度。

关键洞察:深度取决于你如何定义"一步"。以逻辑回归 σ(wᵀx) 为例:

  • 如果把加法、乘法、sigmoid 各算一步 → 深度为 3
  • 如果把逻辑回归整体算一步 → 深度为 1

这就像同一个程序用不同语言编写,代码行数不同一样。

视角二:概念图的深度(概念层级数)

在深度概率模型中,关注的是概念之间的层级关系深度,而非计算步骤数。

精彩例子:AI 系统观察一张脸部图像,其中一只眼睛在阴影中:

  1. 系统最初只看到一只眼睛
  2. 但检测到"脸"的存在后,系统推断第二只眼睛也可能存在

概念图只有两层(眼睛层和脸层),但计算图可能需要 2n 层------因为对简单概念的理解会在获得复杂概念的信息后进一步精细化

深度学习的两种解读

书中提出了理解深度学习的两种互补视角

视角 A:表示学习视角------每一层学习数据的一种新表示,逐层从简单到抽象。

视角 B:程序视角------每一层表示相当于执行一组并行指令后计算机的存储器状态。更深的网络能执行更多的顺序指令,后面的指令可以参考早期指令的结果。这赋予了深度网络极大的计算能力。在这个视角下,某层的激活值不仅仅包含对输入变差因素的解释,还可能存储"状态信息"------类似传统程序中的计数器或指针,帮助模型组织其处理过程。

四、AI 学科的层级关系

每一层都是上一层的子集和深化。书中用两张图展示了它们之间的关系:

四种方法的对比

方法 谁设计输入特征? 谁设计特征到输出的映射? 代表技术
知识库 AI Cyc、专家系统
经典机器学习 机器从数据学 逻辑回归、SVM、朴素贝叶斯
表示学习 机器从数据学 机器从数据学 自编码器
深度学习 机器分多层从数据学 机器从数据学 CNN、RNN、深度网络

可以看到,从上到下,"人工"的成分越来越少,"自动"的成分越来越多。

五、深度学习的三次浪潮(详解)

深度学习并非一夜之间诞生的新技术。它经历了三次浪潮,每次浪潮都有其名称、核心突破和衰退原因。

5.1 第一次浪潮(1940s-1960s):控制论 Cybernetics

时代背景:最早的学习算法试图模拟生物学习------大脑怎样学习、为什么能学习。

核心模型与事件

  • McCulloch-Pitts 神经元(1943):最早的脑功能计算模型。这个线性模型通过检验函数 f(x,w) 的正负来识别两类输入。但权重需要由操作人员手动设置。

  • 感知机 Perceptron(1950s)第一个能从数据中学习权重的模型。这是一个里程碑------机器第一次能够从样本中自动调整自己的参数。

  • 自适应线性单元 ADALINE :返回函数 f(x) 本身的值来预测实数。用于调节其权重的训练算法是随机梯度下降(SGD)的一种特例------稍加改进后的 SGD 至今仍是深度学习的主要训练算法。

衰退原因 :线性模型有一个致命局限------无法学习 XOR(异或)函数 。Minsky 和 Papert 在 1969 年的著作中指出了这一点,导致对神经网络研究的资助大幅削减。批评者从 XOR 问题推广到对整个"受生物学启发的学习"方法的普遍抵触,引发了第一次 AI 寒冬

5.2 第二次浪潮(1980s-1990s):联结主义 Connectionism

时代背景:联结主义(也称并行分布处理, PDP)在认知科学的背景下出现。当时大多数认知科学家研究符号推理模型,但符号模型难以解释大脑如何用神经元实现推理。联结主义者开始研究基于神经系统实现的认知模型,很多思想可追溯到心理学家 Donald Hebb 在 1940 年代的工作。

联结主义的核心思想:当网络将大量简单的计算单元连接在一起时,可以实现智能行为。

关键突破

① 反向传播算法的普及(Backpropagation)

反向传播算法使得训练具有内部表示(隐藏层)的深度神经网络成为可能。虽然它曾黯然失色,但截至今日仍然是训练深度模型的主导方法。

② 分布式表示(Distributed Representation)

这是联结主义时期形成的最重要概念之一。核心思想:

  • 系统的每个输入都应该由多个特征表示
  • 每个特征都应该参与多个输入的表示

具体例子:假设视觉系统需要识别"红色/绿色/蓝色 × 汽车/卡车/鸟类"这 9 种组合。

局部表示(一对一方式):需要 9 个神经元,每个对应一种组合(红汽车、红卡车、红鸟......)。每个神经元必须独立学习颜色和物体的概念,互不共享。

分布式表示:只需 6 个神经元------3 个描述颜色,3 个描述物体身份。描述"红色"的神经元可以从所有红色物体的图像中学习"红色"的概念,而不仅仅从某一类中学习。

优势:参数大幅减少,学习效率大幅提高,泛化能力更强。这个概念是本书的核心主题之一。

③ LSTM 长短期记忆网络(1997)

Hochreiter 和 Bengio 分别指出了对长序列建模时的根本性数学难题(梯度消失/爆炸问题)。Hochreiter 和 Schmidhuber 于 1997 年提出 LSTM 来解决这些问题。如今 LSTM 在许多序列建模任务中广泛应用。

衰退原因(双重打击)

  1. 商业泡沫破裂:基于神经网络的创业公司寻求投资,做法野心勃勃但不切实际。当 AI 不能实现这些不合理的期望时,投资者彻底失望。
  2. 竞争对手崛起:核方法(SVM)和图模型在很多重要任务上表现优异,进一步削弱了人们对神经网络的信心。

第二次浪潮的衰退一直持续到 2007 年。

低谷期的坚守者:加拿大高级研究所(CIFAR)通过其 NCAP 研究计划帮助维持了神经网络研究的火种。该计划联合了三位后来被称为"深度学习三巨头"的研究者:

  • Geoffrey Hinton(多伦多大学)
  • Yoshua Bengio(蒙特利尔大学)
  • Yann LeCun(纽约大学)

5.3 第三次浪潮(2006-至今):深度学习 Deep Learning

引爆点:2006 年的突破

Geoffrey Hinton 证明了一种名为**深度信念网络(DBN)的神经网络可以使用贪婪逐层预训练(Greedy Layer-wise Pretraining)**策略有效训练。其他 CIFAR 附属研究组很快证明同样的策略可以训练多种类型的深度网络,并系统性地提高泛化能力。

这一次浪潮正式普及了"深度学习"这一术语,强调两点:

  1. 研究者现在有能力训练以前不可能训练的深层网络
  2. "深度"具有理论上的重要性

关键认知转变

"目前在复杂任务达到人类水平的学习算法,与 1980 年代努力解决玩具问题的学习算法几乎是一样的。最重要的新进展是现在我们有了这些算法得以成功训练所需的资源。"

这句话道破了一个深刻的事实:不是算法变了,而是数据、算力和工程实践变了

六、深度学习成功的三大驱动力(详解)

6.1 与日俱增的数据量

数据量的增长史也是一部从"手工制造"到"数字洪流"的历史:

时代 数据规模 代表数据集
20世纪初 数百~数千样本 手动制作的统计度量
1950s-1980s 小型合成数据集 低分辨率字母位图
1980s-1990s 数万样本 MNIST 手写数字(6万张)
2000s 数万~数十万 CIFAR-10(6万张彩色图)
2010s 数百万~数千万 ImageNet(1400万张)、Sports-1M
机器翻译 数亿句对 WMT 英法数据集

关键经验法则(截至 2016 年):

  • 每类约 5,000 个标注样本 → 可接受的性能
  • 1,000 万以上标注样本 → 达到或超越人类表现

为什么数据这么重要? 因为统计估计的核心难题是"观察少量数据并在新数据上泛化"。当数据足够多时,这个负担大大减轻------机器不需要那么"聪明"也能表现得好。

Hinton 的比喻:他将 MNIST 数据集描述为"机器学习的果蝇"------就像生物学家用果蝇做实验一样,机器学习研究者可以在 MNIST 这个受控环境下研究算法的行为。

6.2 与日俱增的模型规模

联结主义的核心见解之一:大量简单的计算单元协同工作才能产生智能行为。单独的神经元或小集合的神经元并不特别有用。

  • 人工神经网络的规模大约每 2.4 年翻一倍
  • 每神经元的连接数量已经与小型哺乳动物大脑在同一数量级上
  • 但在神经元总数上,即使现在的大型网络也比青蛙的神经系统还小
  • 按目前的趋势,至少要到 2050 年代,人工神经网络才能具备与人脑相同数量级的神经元

驱动力:更快的 CPU、通用 GPU 的出现、更快的网络连接和更好的分布式计算软件基础设施。

"其神经元比一个水蛭还少的神经网络不能解决复杂的人工智能问题,这是不足为奇的。"

6.3 与日俱增的精度、复杂度和现实世界影响

图像识别的进化轨迹

阶段 能力
最早期 识别裁剪紧凑的小图中的单个对象
中期 处理更大尺寸的图像
现代 处理高分辨率照片,识别 1000+ 类别,无需裁剪

ImageNet ILSVRC 竞赛------深度学习的登场秀

  • 2012 年前(传统方法):top-5 错误率 26.1%
  • 2012 年(AlexNet,卷积网络首次参赛):top-5 错误率骤降至 15.3%
  • 此后每年持续刷新,截至书写作时:3.6%

语音识别:在 1990 年代提高后一直停滞到约 2000 年。深度学习的引入使错误率陡然下降,有些甚至降低了一半。

任务复杂度的演进

  1. 单对象识别整个字符序列输出:神经网络可以学习输出描述图像的完整字符序列,而不仅仅是单个对象
  2. 固定输入映射序列到序列学习(Seq2Seq):LSTM 等循环网络用于对序列之间的关系建模,引领了机器翻译的颠覆性发展
  3. 神经图灵机:能学习读写存储单元,可以从样本中学习简单程序(如排序),将深度学习推向"自我编程"的方向
  4. 深度强化学习:DeepMind 的系统学会玩 Atari 视频游戏并匹敌人类,深度学习也显著改善了机器人控制的性能

工业应用:Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA 等顶级技术公司全面采用。

科学贡献

  • 预测分子相互作用,帮助设计新药
  • 搜索亚原子粒子(粒子物理学)
  • 自动解析构建人脑三维图的显微镜图像
  • 为神经科学家提供可研究的视觉处理计算模型

七、神经科学与深度学习:灵感而非蓝图

书中用了相当篇幅讨论深度学习与神经科学的关系。这个讨论极其重要,因为媒体经常过度强调两者的相似性。

7.1 神经科学提供了什么?

① 可行性证明:大脑证明了智能行为是可能的。概念上,建立智能的直接途径是逆向大脑背后的计算原理。

② 通用算法假说------雪貂实验

这是书中最引人入胜的案例之一:神经学家将雪貂的大脑重新接线,使视觉信号传送到听觉区域,结果雪貂竟然学会了用听觉处理区域"看"东西。

这暗示:大脑的不同区域可能运行着相似的通用学习算法。在此之前,机器学习研究是分散的,不同社群分别研究 NLP、计算机视觉、运动规划和语音识别。这个发现启发了一种统一的方法论。

③ 架构灵感

  • 新认知机受哺乳动物视觉系统结构启发,后来成为现代**卷积网络(CNN)**的基础
  • **整流线性单元(ReLU)**的思想部分受生物神经元特性启发

7.2 神经科学不提供什么?

书中非常明确地指出了边界:

"大家不应该认为深度学习在尝试模拟大脑。"

原因一:我们对大脑的了解远远不够。 要深刻理解大脑使用的算法,需要同时监测至少数千相连神经元的活动。目前我们做不到这一点,甚至连大脑最简单、最深入研究的部分都远远没有理解。

原因二:更接近生物的不一定更好。 真实的神经元计算着与整流线性单元非常不同的函数,但更接近真实神经网络的系统并没有导致机器学习性能的提升。

原因三:灵感来源是多元的。 现代深度学习从许多领域获取灵感,特别是应用数学的基本内容------线性代数、概率论、信息论和数值优化。

深度学习 vs 计算神经科学:这是两个不同的领域。深度学习关注"如何构建能解决智能任务的系统",计算神经科学关注"构建大脑如何真实工作的精确模型"。虽然研究人员在两个领域之间来回穿梭,但目标和方法是不同的。

八、核心概念完整速查表

概念 定义 书中举例
特征 (Feature) 数据的单个可测量属性 是否存在子宫疤痕、声道大小估计
表示 (Representation) 数据的描述方式,好的表示让任务更容易 笛卡尔坐标 vs 极坐标
变差因素 (Factors of Variation) 影响观察数据的潜在不可观测原因 光照、视角、年龄、口音
表示学习 (Representation Learning) 让机器自动学习数据的有效表示 自编码器
深度学习 (Deep Learning) 通过多层简单表示逐步构建复杂表示 像素→边缘→轮廓→部件→物体
分布式表示 (Distributed Representation) 每个输入由多个特征表示,每个特征参与多个输入的表示 6个神经元编码9种颜色×物体组合
反向传播 (Backpropagation) 计算损失函数对每个权重梯度的算法 1980s 普及,至今仍是主导训练方法
知识库方法 (Knowledge Base) 将世界知识硬编码为形式化规则 Cyc 项目
多层感知机 (MLP) 多层简单函数复合而成的深度网络 前馈深度网络
贪婪逐层预训练 2006年突破,使深度网络的有效训练成为可能 深度信念网络
LSTM 长短期记忆网络,解决长序列建模的梯度问题 1997年提出,广泛用于NLP

九、深度思考题

基础理解

  1. 用你自己的话解释"莫拉维克悖论"。为什么象棋对计算机简单,而人脸识别却很难?
  2. Cyc 项目的"Fred 剃须"故事揭示了知识库方法的什么根本缺陷?
  3. 书中笛卡尔坐标/极坐标的例子说明了什么?请再举一个"换表示就能简化问题"的生活例子。

深入思考

  1. "分布式表示"相比"局部表示"有哪些具体优势?如果物体类别从 3 种增加到 100 种,两种方式各需要多少神经元?

  2. 为什么"深度"(多层)比"宽度"(单层很多神经元)更有效?用"计算机程序"的类比来解释。

  3. 书中说"目前达到人类水平的算法和 1980 年代的算法几乎一样"------那真正改变了什么?这对你学习深度学习有什么启示?

批判思维

  1. 深度学习的三次浪潮为什么会有衰退?当前的第三次浪潮有可能再次衰退吗?需要什么条件?

  2. 书中说"不应该认为深度学习在模拟大脑"。但如果有一天我们真正理解了大脑的算法,这对深度学习意味着什么?

相关推荐
xingyuzhisuan3 小时前
适合推荐系统训练的GPU服务器配置选择
人工智能·ai
mwq301233 小时前
TencentOS Server 4 部署 Coze Studio 完整指南
人工智能
IT_陈寒3 小时前
一文搞懂JavaScript的核心概念
前端·人工智能·后端
IT_陈寒3 小时前
Java开发者必看!5个提升开发效率的隐藏技巧,你用过几个?
前端·人工智能·后端
做cv的小昊3 小时前
结合代码读3DGS论文(10)——ICLR 2025 3DGS加速&压缩新工作Sort-Free 3DGS论文及代码解读
论文阅读·人工智能·游戏·计算机视觉·3d·图形渲染·3dgs
机器之心3 小时前
龙虾之后,为什么说「主动式智能」才是Agent的终极形态?
人工智能·openai
智算菩萨3 小时前
GPT-5.4 Pro与Thinking模型全面研究报告
人工智能·gpt·ai·chatgpt·ai-native
团子和二花4 小时前
openclaw平替之nanobot源码解析(八):Gateway进阶——定时任务与心跳机制
人工智能·gateway
机器之心4 小时前
昨晚,OpenClaw大更新,亲手终结「旧插件」时代
人工智能·openai