第十二周：机器学习笔记

第十二周周报

摘要
Abstract
机器学习
- [1. Recurrent Neural Network（下）](#1. Recurrent Neural Network（下）)
- - [1.1 RNN的Loss Function怎么求？](#1.1 RNN的Loss Function怎么求？)
  - [1.2 RNN奇怪的特性](#1.2 RNN奇怪的特性)
  - [1.3 如何解决 RNN 梯度消失或者爆炸](#1.3 如何解决 RNN 梯度消失或者爆炸)
  - [1.4 RNN 其他应用](#1.4 RNN 其他应用)
Pytorch学习
- [1. 现有的网络模型使用以及其修改](#1. 现有的网络模型使用以及其修改)
- - [1.1 在VGG16模型添加Module](#1.1 在VGG16模型添加Module)
  - [1.2 在VGG16模型修改Module](#1.2 在VGG16模型修改Module)
拓展学习
- [1. 高斯（正态）分布的推导](#1. 高斯（正态）分布的推导)
总结

摘要

本周主要继续对RNN的更深层次内容进行了学习，例如学习了RNN的是如何train的、RNN特殊的性质以及如何解决RNN的特殊性质引发的vanish gradient问题，最后对RNN的应用进行了总结。此外，本周还继续对Pytorch进行了学习，主要学习了如何将一个数据集训练的模型通过调参应用到另一数据集中。最后，还对高斯分布的数学推导过程进行了研究学习。

Abstract

This week, deeper aspects of RNNs were studied, including how RNNs are trained, their unique properties, and methods to address the vanishing gradient problem associated with these properties. Additionally, a summary of RNN applications was provided. Furthermore, learning on PyTorch focused on how models trained on one dataset can be applied to another through parameter tuning. Lastly, the mathematical derivation process of the Gaussian distribution was explored.

机器学习

1. Recurrent Neural Network（下）

本周继续在学习RNN前，先复习一下上一周学习的LSTM

1.1 RNN的Loss Function怎么求？

如果我们要使用RNN进行train的话，就要使用Loss Function来判断参数的好坏，然后不断地优化参数使得其Loss最小。
那在RNN中如何定义它的Loss function呢？
我们可以通过计算每个slot 与对应input 的 cross entropy 之和来查看其Loss

如下图所示：

比如，x¹ 中的输出y¹ 会与 reference vector 算出一个cross entropy。

如果我们现在丢进去的是arrive，那y¹的referenced vector是对应的 other 那个 slot 的 dimension value 是1，其他为0。

reference vector的长度就是slot的数目。

比如说你定的40个slot，那这个reference vector的dimension就是40。

又比如我们把Taipei作为input，就需要和destination 的 slot 对比，此时destination的slot 的 dimension value为1其他为0。

但是我们不能把x²与x¹单独分开来，x²必须要在x¹之后输入。

按照上述的方法，把y¹ 到yⁿ与其对应的slot的所有的cross entropy加起来，就得到了我们要去minimize的对象（即得到了我们的Loss Function）

接下来我们还是使用gradient descent中的Back-propagation来优化我们的参数。

不过对于RNN中，对Back Propagation进行了优化，优化为了BPTT（Back-Propagation Through Time）

复制代码

‌BPTT（Back-Propagation Through Time）算法‌是一种用于训练循环神经网络（RNN）的方法
它通过时间维度反向传播误差，以考虑序列数据中的时间相关性。
BPTT算法在每个时间步长内叠加所有对应权重的梯度，与传统的反向传播算法不同，它引入了时间维度，并考虑了序列数据中的时序关系。
这种算法允许RNN更好地捕捉到序列数据中的时间依赖性和上下文信息，从而提高了处理序列数据的性能。

1.2 RNN奇怪的特性

不幸的就是RNN的training是比较困难的

如下图所示：

为什么会出现上图这种情况呢？

我们第一反应肯定是我们的function出现了问题

但是这是一个正常现象

因为有专业人士分析过其loss的error surface对参数的变化是非常的敏感，也就是其图像非常崎跷的。
意思是说error surface，它有一些地方非常平坦，有一些地方非常的陡峭。
以下是这个error surface示意图

纵轴是total loss。

x轴跟y轴代表两个参数w₁和w₂。
这两个参数对total lost的影响在很多地方非常平坦，然而在某些地方就非常的陡峭。

出现种情况可能会对我们的train造成一些问题

如果在update的时候，下一个点正好在悬崖上就会参数就会直接起飞。
为什么会这样呢？

因为当点踩在悬崖上，因为在悬崖上的gradient会很大。然后之前的gradient都很小，所以会突然打你个措手不及。然后你可能把learning rate调的比较大，但是突然很大的gradient再乘上很大的learning rate结果参数就update很多，然后整个参数就飞出去了。

之后有人通过Clipping（剪裁）的方式去解决了这个难题
Clipping的意思就是当gradient大于某一个threhold（门槛）的时候就让gradient不要让它超过那个值

就比如：当gradient大于15的时候，就等于15结束。
使用了Clipping后，gradient会在一个可控的值，所以就算在悬崖边上，gradient也不会剧增，所以其可以继续的做RNN的train 。

那为什么RNN会有这种奇怪的特性呢？

我们拿一个很简单的RNN network举例子

其network具体情况如下：

activation function都是linear的，且没有bias。

输入只有第一时间是1，其余都是0

如下图所示：

当y¹⁰⁰⁰的时候输出的就是w⁹⁹⁹(因为当y²输出的是w;y³输出的是w²)

那么关键的地方来了：、

当w = 1 时候，y¹⁰⁰⁰ = 1

当w = 1.01时候,y¹⁰⁰⁰ ≈ 20000

这突然暴增的gradient（表现在error surface中就比较陡峭）需要我们调一个比较小的η。

但是

当w = 0.99的时候，y¹⁰⁰⁰ ≈ 0

当w = 0.01的时候，y¹⁰⁰⁰ ≈ 0

这时候gradient很小（表现在error surface中就是平坦），需要我们调一个比较大的η。

总结起来就是RNN出现这样的问题就是
RNN从memory接到neuron的那一组weight在不同的时间点被反复使用，从而导致不断叠加。

所以这个w只要一有变化，它有可能完全没有造成任何影响，但像上诉的情况，一旦它可以造成影响，那影响都会是天崩地裂。所以它有时候gradient很大，有时候gradient很小。

1.3 如何解决 RNN 梯度消失或者爆炸

那有什么样的技巧可以帮助我们解决这个问题呢？
其实现在最广泛被使用的技巧就是LSTM

其原理就它可以把那些比较平坦的地方去除掉，留下一些崎岖的地方。

这样下来我们就只有崎岖的地方（即gradient变化比较大），所以我们在LSTM下就可以使用一个很小的learning rate去train。

为什么LSTM可以处理gradient特别小（gradient vanish）的问题呢？

这也是某国际大厂的面试题，我们可以对其进行学习一下
RNN跟LSTM，他们在面对memory的处理的操作其实是不一样的

通过之前的学习，我们可以发现

RNN在处理memory的过程中，在每一个时间点neuron的output都要被放到memory里面去，所以每一个在每一个时间点memory里面的信息都会被覆盖掉。

而LSTM引入了memory cell和一些gate之后，它是把原来memory里面的值乘上一个值，再把input的值加起来，放到里memory里面。
LSTM和RNN不同的地方是，如果weight可以影响到memory里面的值的话，这个影响会永远都存在（除非forget gate被使用，导致memory cell的值清零，否则在memory有改变的时候，每一次都只会有新的东西加进来，而不会把原来存在memory里面的值呢洗掉）。
不像RNN在每一个时间点值都会被forget掉。

所以其不会有gradient vanish的问题

那我们可能有个疑问：

可是有forge gate把过去存的值洗掉啊，但事实上在LSTM的第一个版本，其实就是为了解决gradient vanishing的问题，所以他是没有forget gate的。这是后来才加上去的。

那甚至现在有个传言是你在训练LSTM的时候，你要给特别大的bias，你要确保否forget gate在多数的情况下都是开启的，只有少数的情况它会被forget的。

除此之外，还有另外一个版本用gate操控这个memory的cell

叫做：Gate Recurrent Unit（GRU）

它的这个gate只有两个，所以它需要的参数量是比较少的

所以如果你今天在trian LSTM的时候，你觉得overfitting的情况很严重，你可以试一下用GRU去train。
GRU会把input gate跟for gate联动起来。

也就是说当input gate被打开的时候，forget gate就会自动关闭。

当你forget gate打开的时候就会要format存在memory里面的值。

当forget gate没有要format时候，input gate就会被关起来

（即要把存在memory里面的值清掉，才可以把新的值呢放进来）

其实还有很多其他的technique，是来handle规定vanishing这一个问题。

比如说Clockwise RNN或者是structurally constrained Recurrent Network（SCRN）等等

有很多的vacation在我们前面举的那个slug feeling的例子里面，我们是假设input和output element的数目是一样多的。也就是说if有几个word，我们就给每一个word，一个这个slot的label。

论文"A Simple Way to Initialize Recurrent Networks of Rectified Linear Units"采用了不同的做法。
一般的 RNN 用单位矩阵（identity matrix）来初始化转移权重，与 ReLU 激活函数配合可以得到很好的性能。

如果用一般训练的方法随机初始化权重，ReLU 跟 sigmoid 函数来比的话，sigmoid 性能会比较好。
但是使用了单位矩阵，这时候用 ReLU 性能会比较好。

identity matrices（单位矩阵）

矩阵里面的元素，从左上角到右下角都是1，剩余的部分都是0。

如下所示：