深度学习 Pytorch 单层神经网络

神经网络是模仿人类大脑结构所构建的算法，在人脑里，我们有轴突连接神经元，在算法中，我们用圆表示神经元，用线表示神经元之间的连接，数据从神经网络的左侧输入，让神经元处理之后，从右侧输出结果。

下图是一个最简单的神经元的结构。从这里开始，我们正式开始认识神经网络。

28 单层回归网络：线性回归

28.1 单层回归网络的理论基础

深度学习中的计算是"简单大量"，而不是"复杂的单一问题"。神经网络的原理很多时候都比经典机器学习算法简单。了解神经网络，可以从 线性回归 算法开始。

线性回归算法是机器学习中最简单的回归类算法，多元线性回归指的就是一个样本对应多个特征的线性回归问题。假设我们的数据现在就是二维表，对于一个有 n n n个特征的样本而言，它的预测结果可以写作一个几乎人人熟悉的方程：
z ^ i = b + w 1 x i 1 + w 2 x i 2 + ... + w n x i n \hat{z}i = b + w_1 x{i1} + w_2 x_{i2} + \ldots + w_n x_{in} z^i=b+w1xi1+w2xi2+...+wnxin
w w w和 b b b被统称为模型的权重，其中 b b b被称为截距(intercept)，也叫做偏差(bias)， w 1 w_1 w1~ w n w_n wn被称为回归系数(regression coefficient)，也叫作权重(weights)， x i 1 x_{i1} xi1~ x i n x_{in} xin是样本 i i i上的不同特征。这个表达式，其实就和我们小学时就无比熟悉的 y = a x + b y = ax + b y=ax+b 是同样的性质。其中 y y y被我们称为因变量，在线性回归中表示为 z z z，在机器学习中也就表现为我们的标签。如果写作 z z z，则代表真实标签。如果写作 z ^ \hat{z} z^（读作z帽或者zhat），则代表预测出的标签。模型得出的结果，一定是预测的标签。

符号规范

符号规范
在我们学习autograd的时候，我们说线性回归的方程是 y ^ i = b + w 1 x i 1 + w 2 x i 2 + ... + w n x i n \hat{y}i = b + w_1 x{i1} + w_2 x_{i2} + \ldots + w_n x_{in} y^i=b+w1xi1+w2xi2+...+wnxin。但在这里，为什么写做 z z z呢？首先，无论是回归问题还是分类问题，y永远表示标签（labels）。在回归问题中，`y`是连续型数字，在分类问题中，`y`是离散型的整数。对于线性回归来说，线性方程的输出结果就是最终的标签。但对于整个深度学习体系而言，复杂神经网络的输出才是最后的标签。在我们单独对线性回归进行说明的时候，行业惯例就是使用 z z z来表示线性回归的结果。

在我们学习autograd的时候，我们说线性回归的方程是 y ^ i = b + w 1 x i 1 + w 2 x i 2 + ... + w n x i n \hat{y}i = b + w_1 x{i1} + w_2 x_{i2} + \ldots + w_n x_{in} y^i=b+w1xi1+w2xi2+...+wnxin。但在这里，为什么写做 z z z呢？首先，无论是回归问题还是分类问题，y永远表示标签（labels） 。在回归问题中，y是连续型数字，在分类问题中，y是离散型的整数。对于线性回归来说，线性方程的输出结果就是最终的标签。但对于整个深度学习体系而言，复杂神经网络的输出才是最后的标签。在我们单独对线性回归进行说明的时候，行业惯例就是使用 z z z来表示线性回归的结果。

如果考虑我们有m个样本，则回归结果可以被写作:
z ^ i = b + w 1 x i 1 + w 2 x i 2 + ... + w n x i n \hat{z}i = b + w_1 x{i1} + w_2 x_{i2} + \ldots + w_n x_{in} z^i=b+w1xi1+w2xi2+...+wnxin

其中 z ^ i \hat{z}_i z^i是包含了m个全部的样本的预测结果的列向量。注意，我们通常使用粗体的小写字母来表示列向量，粗体的大写字母表示矩阵或者行列式。 并且在机器学习中，我们默认所有的一维向量都是列向量。

我们可以使用矩阵来表示上面多个样本的回归结果的方程，其中 w w w可以被看做是一个结构为(n+1,1)的列矩阵（这里的n加上的1是我们的截距b），是一个结构为(m,n+1)的特征矩阵（这里的n加上的1是为了与截距b相乘而留下的一列1，这列1有时也被称作 x 0 x_0 x0，则有：