《机器学习》周志华-CH5（神经网络）

5.1神经元模型

机器学习中谈论神经网络指"神经网络学习"。

神经网络基本成分是神经元(neuron)和模型

1943年，McCulloch and Pitts:M-P神经元模型

5.2感知机与多层网络

感知机(Perceptron)由两层神经元组成，又称"阈值逻辑单元(threshold logic unit)"

感知机可实现与、或、非运算， y = f ( ∑ w i x i − θ ) y=f(\sum w_ix_i-\theta) y=f(∑wixi−θ)

其中，f为阶跃函数， s g n ( x ) { 1 x ≥ 0 0 x < 0 sgn(x) \begin{cases} 1 & x\geq0 \\ 0 & x < 0 \\ \end{cases} sgn(x){10x≥0x<0

更一般的，给定数据集，权重 w i ( i = 1 , 2... n ) w_i(i=1,2...n) wi(i=1,2...n),阈值 θ \theta θ可通过学习得到； θ \theta θ可看做 w n + 1 w_{n+1} wn+1,输入永远 − 1 -1 −1.

单层感知机只能"与"、"或"、"非"，非线性"异或"解决不了

两层感知机可解决"异或"，引出多层前馈神经网络

5.3误差逆传播算法

逆误差传播(error BackPropagation),BP是其中杰出代表

通常说"BP网络"一般指用BP算法训练多层前馈神经网络

BP目标是最小化训练集 D D D上的累积误差
E = 1 m ∑ k = 1 m E k \begin{equation} E=\frac{1}{m}\sum_{k=1}^mE_{k} \tag{5.16} \end{equation} E=m1k=1∑mEk(5.16)

如何缓解BP网络过拟合？？？

（1）"早停"：数据分为训练集和验证集，训练集用于计算梯度、更新权、阈值。验证集用来估计误差，若训练集误差降低但验证集升高，则停止训练。

(2)"正则化"：在误差目标函数上增加一个可用于描述网络复杂度部分。如权与阈值的平方。
E = λ 1 m ∑ k = 1 m E k + ( 1 − λ ) ∑ i w i 2 \begin{equation} E=\lambda\frac{1}{m}\sum_{k=1}^mE_{k}+(1-\lambda)\sum_{i}w_{i}^2 \tag{5.17} \end{equation} E=λm1k=1∑mEk+(1−λ)i∑wi2(5.17)

其中， λ ∈ ( 0 ， 1 ) \lambda\in(0，1) λ∈(0，1),用于对经验误差与网络复杂度这两项进行折中，常通过交叉验证法来估计。

5.4全局最小与局部极小

我们常会谈到两种"最优"："局部最小"（local minimum）和"全局最小"（global minimum）

（1）以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数；

相当于从多个不同的初始点开始搜索，陷入不同的局部极小，从而选择有可能获得更接近全局最小的结果。

（2）使用"模拟退火"技术（simulated annealing）

模拟退火每一步都以一定概率接受比当前解更差的结果。

每次迭代中，接受"次优解"的概率要随时间推移而降低，保证算法稳定。

（3）使用随机梯度下降

在计算梯度时加入了随机因素

即使陷入局部极小点，计算的梯度仍可能不为零。

遗传算法（genetic algorithm）也常用来训练神经网络以更好地接近全局最小

上述方法理论上不够，启发式

5.5其他常见神经网络

5.5.1RBF网络

RBF（Radial Basis Function，径向基函数）网络是一种单隐层前反馈神经网络，使用径向基函数作为隐层神经元激活函数。输出层则是对隐层神经元输出的线性组合

具有足够多隐层神经元的RBF网络能以任意精度逼近任意连续函数。

两步：

确定神经元中心 C i C_{i} Ci,随机采样，聚集
利用BP确定 w i 和 β i w_{i}和\beta_{i} wi和βi

5.5.2ART网络

什么是竞争性学习？

竞争性学习（competetitve learining）是神经网络一种常用的无监督学习策略。输出神经元相互竞争，每一时刻仅有一个竞争获得胜利的神经元激活，其他被抑制

这种成为 胜者通吃（winner-take-all）原则

ART（Adaptive Resonance Theory，自适应谐振网络理论）是竞争性学习代表，网络由比较层（接收输入样本）、识别层（每个神经元对应一个模式类，神经元数目可在训练过程中动态增长，增加新的模式表）、识别阈值和重置模块构成。

5.5.2.1竞争最简单的方式

计算输入向量与每个识别神经元所对应的模式类的代表向量之间的距离，距离最小者胜；
获胜神经元向其他识别层神经元发送信号，抑制激活；
输入与获胜神经元的相似度大于阈值，归类该属性；
更新连接权重，后期相似样本计算更大相似度；
若相似度不大于阈值，增设一个新的神经元，当前输入为代表向量。

5.5.2.2识别阈值

阈值高，输入样本会被细分多种类别
阈值低，产生比较少，比较粗略的类

ART比较好地缓解了竞争性学习中的"可塑性-稳定性窘境"（stability-plasticity dilemma）

可塑性（指有学习新知识的能力）
稳定性（指学习新知识时要保持对旧知识记忆）

优点：可进行增量学习（incremental learning）或在线学习（online learning）

5.5.3SOM网络（Self-Origin）

SOM网络是一种竞争学习型的无监督神经网络 ，能将高维映射到低维，同时保持高维拓扑结构。高维相似点映射为输出层邻近神经元。

步骤：接收样本，每个输出层神经元会计算该样本与自身携带的权向量的距离，距离最近获胜，称最佳匹配单元。

周围神经元权向量调整，使得权向量与当前输入样本距离缩小，不断迭代，直至收敛。

5.5.4级联相关网络

结构自适应网络将网络结构也当作学习目标，希望找到合适网络结构。级联相关网络是结构自适应网络的重要代表

级联：建立层次连接的结构，开始时只有输入输出层；随着训练新的隐层加入。

与一般前馈神经网络相比，级联相关网络无需设置网络层次，隐层神经元数目，且训练速度快，但数据较少时容易过拟合。

5.5.5Elman网络

"递归神经网络"（recurrent neural networks）允许出现环形结构，从而让一些神经元的输出反馈回来作为输入信号。

使得 t t t时刻输出状态不仅与 t t t时刻输入有关，还与 t − 1 t-1 t−1时刻网络状态有关，从而能处理与时间有关的动态变化。

与多层前馈网络相似，但隐层神经元输出被反馈回来，与下一时刻输入一起作为下一次隐层输入。 s i g m o i d sigmoid sigmoid激活函数， B P BP BP算法。

5.5.6Boltzmann机

神经网络有一类模型是为网络定义一个"能量"，能量最小即为理想。训练就是为最小化这个能力函数。

Boltzmann机就是一种"基于能量的模型"（energy-based-model）

神经元分两层 { 显层：用于数据的输入和输出隐层：数据的内在表示神经元分两层 \begin{cases} 显层： & 用于数据的输入和输出 \\ 隐层： & 数据的内在表示 \\ \end{cases} 神经元分两层{显层：隐层：用于数据的输入和输出数据的内在表示

Boltzmann机中神经元都是布尔型，取0（抑制），1（激活）状态。

5.6深度学习

典型的深度学习模型就是很深层的神经网络，增加隐层数目。
然而，多隐层神经网络难以直接用经典算法（如BP）进行训练，因为误差在多隐层内逆传播时，往往会"发散"（diverge）而不能收敛。
无监督逐层训练(unsupervised layer-wise training)是多隐层网络训练的有效手段.

训练时将上一层隐结点的输出作为输入，而本层隐结点的输出作为下一层隐结点的输入，成为"预训练"（pre-training）；预训练完成后，对整个网络"微调"。
深度置信网络（deef belief network，简称DBN），每层都是一个受限Boltzmann机，整个网络可视为若干个RBM堆叠而得，使用无监督逐层训练时，首先训练第一层，这是关于训练样本的RBM模型，可按标准的RBM训练；然后，将第一层预训练好的隐结点视为第二层的输入结点，对第二层进行预训练； ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ \cdot\cdot\cdot\cdot\cdot\cdot ⋅⋅⋅⋅⋅⋅各层预训练完成后，在利用BP算法对整个网络进行训练。
预训练+微调可视为将大量参数分组，局部较优联合为全局寻优，有利于节省训练开销。
"权共享"可节省训练开销，让一组神经元使用相同的连接权。此策略在CNN中发挥了重要作用。
深度学习又为"特征学习"或"表示学习"

通过多层处理，逐渐将初始"低层"特征转化"高层"表示，用"简单模型"完成复杂的分类学习任务。