人工神经网络
人工神经网络(Artificial Neural Network)是深度学习的基础,其发展经历了多个阶段,并从真实的生物神经元中获得了重要的启发。
一. 神经网络的基础概念
1. 从生物神经元到人工神经元
人工神经网络中的基本计算单元与真实的生物神经元具有高度的对应关系。
- 生物神经元结构 :由树突、细胞核、轴突、轴突末梢等组成。输入化学信号通过树突转化为电信号,电信号累积触发动作电位,再传递到轴突释放给其他细胞。Hebbian学习指出,同步激发的神经元连接会变强。
- 神经元模型(1943) :
- 输入 :类比为神经元的树突。
- 输出 :类比为神经元的轴突。
- 计算 :类比为细胞核。
- fff :被称为激活函数。
- 感知机模型(1958):Rosenblatt 提出了一种接近人类学习过程的单层神经网络模型,基于输入特征的线性组合加上硬限幅(Hard limiter)激活函数进行输出。
2. 激活函数的作用与常见类型
在神经网络中,必须引入非线性的激活函数,否则多层网络的叠加依旧只是线性变换,无法解决如 XOR(异或)等线性不可分的复杂映射问题。
- Sigmoid函数 :σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1
- Tanh函数 :tanh(z)=1−e−2z1+e−2z\tanh(z) = \frac{1-e^{-2z}}{1+e^{-2z}}tanh(z)=1+e−2z1−e−2z
- ReLU函数 :ReLU(z)=max(0,z)ReLU(z) = \max(0, z)ReLU(z)=max(0,z)
二. 神经网络的发展史
神经网络的发展并非一帆风顺,而是大致经历了五个重要的起伏阶段:
- 第一阶段:模型提出。1943年提出 MP 模型;1958年 Rosenblatt 提出感知机模型。
- 第二阶段:冰河期。1969年 Minsky 指出感知机无法处理异或(XOR)等问题,且计算资源受限,导致神经网络进入长达十多年的低谷。
- 第三阶段:反向传播算法引起的复兴。80年代,反向传播算法(Back Propagation)被引入多层感知机和卷积神经网络,在数字识别等任务上取得成功。
- 第四阶段:流行度降低。90年代中期,由于神经网络理论基础不清晰、优化困难等,支持向量机(SVM)等统计学习模型兴起,神经网络再次陷入低潮。
- 第五阶段:深度学习的崛起。2006年提出逐层预训练后微调的策略;2013年 AlexNet 在图像分类上取得突破,伴随大数据和 GPU 计算能力的提升,深度学习全面爆发。
三. 前馈网络与模型训练
1. 前馈神经网络 (Feed-forward Neural Network)
多层感知机(MLP)是最典型的前馈神经网络。
- 结构特点:包含输入层、隐藏层和输出层。同一层内的神经元互相独立,且通常使用相同的激活函数。
- 隐藏层的意义:通过添加隐藏层,每个隐藏节点负责实现凸区域的一条边界线,进而完成线性不可分数据的正确映射。
2. 反向传播算法 (Back Propagation)
由于深度网络包含大量参数,利用梯度下降进行训练时,必须通过反向传播算法高效计算每一层参数的偏导数。
- 链式法则(Chain Rule) :反向传播的核心。利用链式法则,可以建立第 l+1l+1l+1 层和第 lll 层计算节点(激活前后的数值)关于损失函数 LLL 的偏导值之间的数学关系。
- 权重更新 :通过后一层的误差项(δ\deltaδ)逐层反向传递,计算每个权重 WWW 的梯度,并采用优化算法进行权重迭代。