1-深度学习的介绍

一、深度学习的兴衰

1. 1958：感知机 Perceptron（第一次兴起）

核心：单层感知机，线性模型，人类第一个模仿人脑神经元的机器学习模型，能做简单二分类。
意义：神经网络的起点，当时学界非常看好，迎来第一次热潮。

2. 1969：感知机存在致命局限（第一次寒冬，红色低谷）

Minsky 出版《Perceptrons》，严格数学证明：单层感知机无法解决异或 XOR 这类非线性可分问题，模型表达能力极弱。直接导致政府、企业停止对神经网络的资金投入，神经网络进入十几年沉寂期。

3. 1980 年代：多层感知机 MLP（第二次复苏）

人们提出多层感知机（含隐藏层），结构和现在的深度神经网络 DNN 本质框架几乎一致：

Do not have significant difference from DNN today 翻译：和如今的深度神经网络没有本质区别。多层结构理论上能拟合任意复杂函数，解决了单层感知机的表达缺陷，神经网络重新回到视野。

4. 1986：反向传播 Backpropagation（BP 算法，关键突破）

Hinton 等人正式完善反向传播训练算法，解决多层网络权重怎么更新、怎么训练的核心问题，多层网络终于能落地训练。但当时有巨大瓶颈：

Usually more than 3 hidden layers is not helpful 翻译：超过 3 层隐藏层的网络基本没有效果。原因：没有好的权重初始化方案，深层网络训练会出现梯度消失，深层参数无法更新，训不动。

5. 1989：单隐藏层就够用，为什么要做深度？（第二次寒冬，红色质疑）

通用逼近定理证明：只要 1 层足够宽的隐藏层，就能拟合任意连续函数。当时所有人产生疑问：既然单层就能搞定所有任务，费力堆叠多层网络有什么意义？再加深层梯度消失、算力不足，神经网络再次遇冷，统计学、SVM 等算法占据主流近 20 年。

6. 2006：RBM 预训练初始化（突破性转机，第二次复兴起点）

Hinton 提出受限玻尔兹曼机 RBM 逐层无监督预训练：先一层一层无监督初始化网络权重，再用 BP 微调，完美缓解深层网络梯度消失问题，真正让 "深度网络" 能稳定训练，是现代深度学习正式诞生的标志性突破。

7. 2009：GPU 算力普及（工程落地基础）

用图形显卡 GPU 并行加速神经网络计算，解决深度模型巨大矩阵运算的算力瓶颈，原本需要几周的训练缩短到几天，深度学习具备大规模实验条件。

8. 2011：深度学习在语音识别领域大规模流行

微软、谷歌将深度网络应用语音识别，错误率大幅下降，工业界首次大规模落地深度学习技术。

9. 2012：AlexNet 夺得 ILSVRC 图像竞赛冠军（深度学习全面爆发）

AlexNet 深度卷积神经网络，在 ImageNet 图像分类比赛上准确率碾压传统算法，错误率直接降低近一半，震惊计算机视觉领域。自此深度学习席卷 CV、语音、NLP 所有 AI 赛道，开启至今的人工智能大时代。

二、Three Steps for Deep Learning

Step 1:

define a setof function

用大量的Neural network进行连接，不同的连接方式出现不同的function

最常见的是全连接前馈传播网络

neuron：神经元,每一个带颜色的圆就是一个neuron

Bias：偏置值，绿色框

圈内 S 曲线Sigmoid Activation FunctionSigmoid 激活函数

左右连线数字Weight value (Connection Weight)连接权重值

0x1 +0x(-2) + 1 = 1 得出来的数字就是e的负次方数 σ(1)=1/(1+e^（-1）)≈0.73

不同的参数的就是不同的function，如果没有参数，就是一个function set

deep：就是很多层的layer

error rate：错误率数值越低，图像识别精度越高。

写成矩阵运算的形式

把weight和bias，input，output，layers也写成矩阵的形式

一层套一层，把前面的数据算出来后，用到后面

为什么写成矩阵的形式？GPU计算矩阵更快

Feature extractor replacing feature engineering

翻译：特征提取器，替代人工特征工程

Feature engineering 人工特征工程 传统机器学习（SVM、逻辑回归等）必须靠人手动设计、挑选、加工有用特征，人要先想哪些信息有用，再写代码提取，很费时、依赖专家经验。
Feature extractor 自动特征提取器 神经网络的多层隐藏层可以自动从原始数据里逐层提炼有效特征 ，不用人工设计特征，这是深度学习最核心优势。
- 浅层隐藏层：提取简单基础特征（边缘、线条、基础纹理）
- 深层隐藏层：组合成复杂高级特征（轮廓、局部部件、整体语义

案例举例

怎么确定多少层layer和多少neurons？直觉+经验+训练

Step 2:goodness of function

定义function的好坏

看看得到的结果和目标的差距 Loss损失函数

计算总的差距

如何找到差距最小对应的参数？梯度下降

学习率怎么确定？Adam 默认 0.001；SGD 默认 0.01；看损失调参：震荡就缩小，太慢就放大；

反向传播（Backpropagation）