1.人工神经网络ANN(artificial neural network)
神经元 neuron 的基本结构 细胞体cell body 树突dendrite 轴突 axon。
感知机perceptron
激活函数 activation function
1.1 sigmoid函数

1.2 tanh函数

1.3 reLU函数

1.4 三者比较

2.前馈神经网络FNN(feedforward neural network)
多层感知机MLP (multilayer perceptron)
第0层称为输入层,最后一层称为输出层,其他中间层称为隐藏层。
2.1 前向传播 forward propagation
输入数据从神经网络的第一层,一层一层往后计算,最后得到预测结果。
2.2 损失函数 loss function
模型预测结果和真实答案之间差得有多远。
2.2.1 回归任务:均方误差 mean square error, MSE

2.2.2 二分类任务:交叉熵 Binary Cross Entropy

2.3 反向传播 back propagation
根据损失函数的结果,反过来计算每个参数对错误的影响,然后更新参数。
2.4 训练
输入数据→前向传播→得到预测结果→计算损失→反向传播→更新参数
前向传播是从输入到输出计算预测结果;损失函数是衡量预测和真实答案的差距;反向传播是根据这个差距计算梯度并更新参数。这三个步骤循环进行,就是神经网络训练的核心过程。
3.卷积神经网络CNN(Convolutional Neural Network)
卷积神经网络通常由卷积层、激活层、池化层和全连接层等关键组件组成。

3.1 卷积 Convolution
卷积就是用一个小矩阵,也叫 卷积核,在图片上滑动,计算局部区域的特征。

3.2 步长 stride
Stride 指卷积核每次移动多少格。
3.3 填充 padding
Padding 是在图片边缘补 0。
3.4 池化 pooling
Pooling 用来降低特征图尺寸,减少计算量,同时保留重要特征。

3.4.1 平均池化 average pooling
平均池化就是取区域内的平均值。特点:保留整体信息,但特征不够突出。


3.4.2 最大池化 max pooling
最大池化就是取区域内的最大值。 特点:保留最明显、最强的特征。在图像任务中,最大池化用得更多。


3.5 经典卷积神经网络
3.5.1 LeNet-5

3.5.2 AlexNex

3.5.3 ResNet(residual neural network)


4.循环神经网络RNN
4.1 RNN


4.2 长短时记忆网络(Long Short-Term Memory, LSTM)
是一种特殊的循环神经网络各(RNN),由Sepp Hochreiter 和 Júrgen Schmidhuber 在1997年提出。它被明确设计来解决标准RNN的梯度消失/爆炸问题,从而能够有效地学习长期依赖关系。
LSTM 的核心思想是通过"门(Gate)"来控制信息的保留、遗忘和输出。

4.2.1 遗忘门Forget Gate
之前的长期记忆(Cell State)中,哪些信息需要保留,哪些需要丢弃。

4.2.2 输入门 Input Gate
当前新的信息,有多少可以写入到记忆单元中。

4.2.3 单元状态向量更新 Cell State Update
4.2.4 输出门 Output Gate
当前时刻应该输出哪些信息。

4.2.5 LSTM 整体流程
输入数据后:
4.2.5.1 Forget Gate
决定忘记哪些旧信息
4.2.5.2Input Gate
决定加入哪些新信息
4.2.5.3 Update Cell State
更新长期记忆
4.2.5.4 Output Gate
输出当前隐藏状态
4.3 门控循环单元 Gated Recurrent Unit

4.3.1 GRU 单元的内部结构
4.3.1.1 更新门 Update Gate
决定保留多少旧信息。
4.3.1.2 重置门 Reset Gate
决定遗忘多少历史信息。
4.3.2 隐状态向量更新 Hidden State Update

4.3.3 总结


参考:
《自然语言处理 》
