翻译: 梯度下降深度学习神经网络如何学习一

在上一节影片里我讲解了神经网络的结构首先我们来快速回顾一下在本节影片里，我们有两个目标首介绍梯度下降的概念它不仅是神经网络工作的基础也是很多其他机器学习方法的基础然后我们会研究一下这个特别的网络是如何工作的以及这些隐藏的神经元层究竟在寻找什么作为覆习这里我们引用一个经典的例子------手写数字识别神经网络领域的"Hello World" 这些数字书写在28乘28像素的网格上每个网格对应一个0到1之间的灰度值。

这些灰度值决定了神经网络输入层的784个神经元的激活(782=28*28) 随后每一层的各个神经元的激活值都基于前一层的加权和与一个被叫做偏差的常数相加来获得然后你把它和一些其他函数相加

比如sigmoid 或者我上节视频提到的ReLu 总之我们随意给出两个具有16个神经元的层

每一个神经网络有 13000个可以调整的权重值和偏差正是这些值决定了这个神经网络如何工作那么"这个网络可以将给定数字分类"是什么意思呢

即最后一层10个数字中被点亮的那个数字就是输入的数字请记住，我们使用这个分层的结构，目的是或许，第二层可以辨别出数字中的特征线段第三层或许可以辨别出组成数字的圈和线而最后一层可以把所有特征结合在一起从而辨别出这个输入的数字

因此，在这里我们将学习神经网络是如何学习的我们想要的是一种可以向这个神经网络展示大量训练数据的算法这里所说的大量训练数据是指很多手写数字的图像以及标明了这个图像上的数字到底是几的标签

它能够通过这些训练数据来调整13000个权重值和偏差以达到改善神经网络表现的目的我们所期望的是这个分层的结构可以学习超出训练数据范围的图像的识别我们测试的方法是当你完成对这个网络的训练后当你向它展示它从未见过的图像时观察它判断的精确度

幸运的是通常我们可以用来自MNIST base的数据来开始训练 MNIST base的好人们收集了数以万计带有标签的手写数字图像当你一但真正了解它的工作原理，你会发现向机器解释学习的过程非常有挑战的一件事

它并不像一些疯狂的科幻反倒是更像微积分练习也就是说基本上是找到某一个特定函数的最小值请记住，

从概念上讲，我们认为每一个神经元都与前一层的所有神经元相连加权求和计算中的加权值在定义中像是一种神经元间连接强度的参考值而偏差值则代表了某个神经元是倾向于激活还是不激活并关闭如果我们将所有的权重值和偏差值初始化为随机数

毫无疑问，这个神经网络会表现地一塌糊涂用一个例子来说明当你输入一个3的图像

输出层看起来一片混乱所以，你要做的是，定义一个成本函数来告诉电脑，不！你是错的！正确的输出应该是，多数神经元激活值为0 但是对于这个神经元来说，你给我的是垃圾用数学语言来描述，就是你需要把每个【垃圾输出】与【你想要的正确输出】的【差的平方】相加这就是在单个训练例子中的成本

注意，如果网络能很正确地辨别出图像这个和会非常小

但如果这个值很大说明这个神经网络根本不知道它在干嘛所以你要做的就是考虑在你所能处理的上万个训练案例中的平均成本

这个平均成本就是我们对该神经网络表现好坏的衡量值

记住这个神经网络本质上是一个函数它将784个像素值数字作为输入 10个数字作为输出从某种意义上来说是通过这些权重和偏差来参数化

然而成本函数的复杂性表现在最重要的是它将13,000 左右的权重和偏差值作为输入并输出一个数字来反应这些权重和偏差质量的好坏

它的定义，由神经网络经过上万次训练后的表现来决定这里面有很多要思考的不过直接告诉电脑，它的工作有多烂它一点帮助也没有

你想要知道的是，如何可以调整这些权重和偏差从而让它表现的好一点我们用一个简单的例子来说明（而不是费力思考一个有着13000个输入输出的函数）

我们想象这样一个简单的函数它只有一个输入和一个输出如何找到一个输入值使函数值最小学过微积分的学生知道有时你可以非常容易地指出一个函数的最小值

但对于一些非常复杂的函数来说，就不一定可行了

当然包括我们那个超级复杂的有着13000个自变量的成本函数

一个更灵活的办法是，从任意一个输入量开始，找出让函数值变小的方向尤其是，如果你知道函数在某一点的斜率那么，当斜率为正时，向左;

当斜率为负时，向右就可以找到函数输出变小的方向

如果你用合适的步骤不断地重复检查每一点的斜率你就可以找到函式的局部最小值你可以在大脑里想象这样一幅图一个球向山下滚落

值得注意的是，即使在这样一个简单的单一输入函式中，依然有可能出现很多可以滚入的山谷

从你随机选取的输入值开始，找到的局部最小值

根本不能保证，它就是整个函数的最小值对于我们的神经网络的函式来说，也是一样的情况

另外需要注意的是，如果你的步长和斜率成比例那么当越接近最小值时，你的步长就越小，这会帮助你避免找过头扩展一下想象力，

如果一个函数有两个自变量和一个因变量你可以想象，输入自变量空间是一个XY平面而成本函数则是飘浮在上面的一个曲面现在，需要考虑的不是函数的斜率而是在输入空间的寻找前进方向换句话说，就是让函数输出减小得最快下山的方向是什么？

同样的，我们想象一个球向山下滚落熟悉多变量微积分的人会知道函数的梯度会给你最陡峭的上升方向也就等同于哪个方向是函数增加最快的方向

很自然的，用负梯度就可以找到函数下降最快的方向而且，这个梯度向量的长度实际上是这个最陡斜坡有多陡的指标

如果你并不熟悉多变量微积分并且想学习更多关于这方面的内容你可以看一下可汗学院关于这一章节的内容

事实上，对于我们来说，最重要的是原则上这个矢量是可以计算出来的

它会告诉你下山的方向以及会有多陡知道这些知识就够了，具体的细节并不重要

因为如果你知道可以通过计算梯度方向来找到函数值变小的方向并向山下走出第一步那么你就可以重复这个过程

这个原理在拥有13000个自变量的函式中同样适用想象一下，把有13000个权重和偏差的神经网络

放入一个超大的向量中成本函数的负梯度只是一个简单的矢量它是一个超级大的输入变量空间中的一个方向

告诉你哪个方向会让成本函数最快地变小

当然，对于我们专门设计的成本函数而言改变权重和偏差意味着让神经网络对每一组训练数据的输出

看起来不像是十个数字中随机的一个

而是实际上我们想让它输出的那一个要知道，这个成本函式是每一组训练数据效果的平均所以如果你减小这个函数值意味着改善了所以样本的表现

让这个梯度计算更有效率的算法是神经网络学习的核心它叫做反向传播这是我下个视频重点要讲的其中我非常想花时间讲一讲对于一组特定的训练数据每一个权重和偏差到底发生了什么

参考

https://youtu.be/IHZwWFHWa-w?si=_TERPs9nz8S5lU8n

翻译: 梯度下降 深度学习神经网络如何学习一

参考

翻译: 梯度下降深度学习神经网络如何学习一