（2023版）斯坦福CS231n学习笔记：DL与CV教程 (4) | 神经网络与反向传播

前言

📚 笔记专栏：斯坦福CS231N：面向视觉识别的卷积神经网络（23）

🔗 课程链接：https://www.bilibili.com/video/BV1xV411R7i5

💻 CS231n: 深度学习计算机视觉（2017 ）中文笔记：https://zhuxiaoxia.blog.csdn.net/article/details/80155166

🔥 2023最新课程PPT：https://download.csdn.net/download/Julialove102123/88734395

⚠️ 本节重点内容：

神经网络基础
激活函数
神经网络结构
反向传播

一、什么是神经网络？

这里不做多解释，深度学习的基础，只记录几个重点。

类比人类大脑神经元结构：输入、权重、激活函数、计算、输出；

大脑的基本计算单位是神经元（neuron）。人类的神经系统中大约有 860 亿个神经元，它们被大约 1014 - 1015 个突触（synapses）连接起来。上方是一个生物学的神经元，下方是一个简化的常用数学模型。每个神经元都从它的树突（dendrites）获得输入信号，然后沿着它唯一的轴突（axon）产生输出信号。轴突在末端会逐渐分枝，通过突触和其他神经元的树突相连。

在神经元的计算模型中，沿着轴突传播的信号（比如公式）将基于突触的突触强度（比如公式），与其他神经元的树突进行乘法交互（比如公式）。

二、神经网络算法基础

2.1 激活函数（也称"非线性映射函数"）

Q：为什么需要激活函数呢？

A：如果不使用激活函数，无论多少层，最终都是输入层的线性组合，即计算下来还是一个线性分类器！！！

注意：非线性函数在计算上是至关重要的，如果略去这一步，那么两个矩阵将会合二为一，对于分类的评分计算将重新变成关于输入的线性函数。这个非线性函数就是改变的关键点。

激活函数的作用：激活函数的主要作用就是加入非线性因素，以解决线性模型表达能力不足的缺陷，

常见激活函数：

2.2 神经网络结构

参数调整可视化：https://cs.stanford.edu/people/karpathy/convnetjs/demo/

对于普通神经网络，最普通的层级结构是全连接层（fully-connected layer）。全连接层中的神经元与其前后两层的神经元是完全成对连接的，但是在同层内部的神经元之间没有连接。网络结构中没有循环（因为这样会导致前向传播的无限循环）。

下面是两个神经网络的图例，都使用的全连接层：

注意：当我们说N层神经网络的时候，我们并不计入输入层。单层的神经网络就是没有隐层的（输入直接映射到输出）。也会使用人工神经网络（Artificial Neural Networks 缩写ANN）或者多层感知器（Multi-Layer Perceptrons 缩写MLP）来指代全连接层构建的这种神经网络。此外，输出层的神经元一般不含激活函数。

用来度量神经网络的尺寸的标准主要有两个：一个是神经元的个数 ，另一个是参数的个数。用上面图示的两个网络举例：

第一个网络有4+2=6个神经元（输入层不算），「3x4」+「4x2」=20 个权重，还有4+2=6个偏置，共「20+6 = 26」个可学习的参数。
第二个网络有4+4+1=9个神经元，「3x4」+「4x4」+「4x1」=32 个权重，4+4+1 =9个偏置，共41个可学习的参数。
现代卷积神经网络能包含上亿个参数，可由几十上百层构成（这就是深度学习）。

代码解释