【机器学习】线性回归算法：原理、公式推导、损失函数、似然函数、梯度下降

1. 概念简述

线性回归是通过一个或多个自变量与因变量 之间进行建模的回归分析，其特点为一个或多个称为回归系数的模型参数的线性组合。如下图所示，样本点为历史数据，回归曲线要能最贴切的模拟样本点的趋势，将误差降到最小。

2. 线性回归方程

线形回归方程，就是有 n 个特征，然后每个特征 Xi 都有相应的系数 Wi ，并且在所有特征值为0的情况下，目标值有一个默认值 W0，因此：

线性回归方程为：

整合后的公式为：

3. 损失函数

损失函数是一个贯穿整个机器学习的一个重要概念，大部分机器学习算法都有误差，我们需要通过显性的公式来描述这个误差，并将这个误差优化到最小值。假设现在真实的值 为 y ，预测的值 为 h 。

损失函数公式为：

也就是所有误差和的平方。损失函数值越小，说明误差越小，这个损失函数也称最小二乘法。

4. 损失函数推导过程

4.1 公式转换

首先我们有一个线性回归方程 ：

为了方便计算计算，我们将线性回归方程转换成两个矩阵相乘的形式 ，将原式的后面乘一个

此时的x0=1 ，因此将线性回归方程转变成，其中** 和可以写成矩阵**：

4.2 误差公式

以上求得的只是一个预测的值，而不是真实的值，他们之间肯定会存在误差，因此会有以下公式：

我们需要找出真实值 与预测值 之间的最小误差 ，使预测值和真实值的差距最小。将这个公式转换成寻找不同的使误差达到最小。

4.3 转化为求解

由于既存在正数也存在负数，所以可以简单的把这个数据集，看作是一个服从均值，方差为的正态分布。

所以出现的概率满足概率密度函数：

把代入到以上的**高斯分布函数（即正态分布）**中，变成以下式子：

到此，我们将对误差的求解转换成对的求解了。

在求解这个公式时，我们要得到的是误差最小 ，也就是求概率最大 的。因为误差满足正态分布，因此在正太曲线中央高峰部的概率是最大 的，此时标准差为0 ，误差是最小的。

尽管在生活中标准差肯定是不为0的，没关系，我们只需要去找到误差值出现的概率最大的点。现在，问题就变成了怎么去找误差出现概率最大的点 ，只要找到，那我们就能求出

4.4 似然函数求

似然函数的主要作用 是，在已经知道变量 x 的情况下，调整，使概率 y 的值最大。

似然函数理解：

以抛硬币为例，正常情况硬币出现正反面的概率都是0.5，假设你在不确定这枚硬币的材质、重量分布的情况下，需要判断其是否真的是均匀分布。在这里我们假设这枚硬币有 的概率会正面朝上 ，有** 的概率会反面朝上**。

为了获得的值，将硬币抛10次，H为正面，T为反面，得到一个正反序列 x = HHTTHTHHHH，此次实验满足二项分布，这个序列出现的概率 为，我们根据一次简单的二项分布实验，得到了一个关于的函数，这实际上是一个似然函数 ，根据不同的值绘制一条曲线，曲线就是的似然函数，y轴是这一现象出现的概率。

从图中可见，当等于 0.7 时，该序列出现的概率是最大的，因此我们确定该硬币正面朝上的概率是0.7。

因此，回到正题 ，我们要求的是误差出现概率的最大值，那就做很多次实验，对误差出现概率累乘 ，得出似然函数，带入不同的，看是多少时，出现的概率是最大的，即可确定的值。

综上，我们得出求的似然函数为：

4.5 对数似然

由于上述的累乘的方法不太方便我们去求解，我们可以转换成对数似然，将以上公式放到对数中，然后就可以转换成一个加法运算 。取对数以后会改变结果值，但不会改变结果的大小顺序。我们只关心等于什么的时候，似然函数有最大值，不用管最大值是多少，即，不是求极值而是求极值点。注：此处log的底数为e。