深度学习（二）-损失函数+梯度下降

损失函数

损失函数（Loss Function），也有称之为代价函数（Cost Function），用来度量预测值和实际值之间的差异。

损失函数的作用

度量决策函数f（x）和实际值之间的差异。
作为模型性能参考。损失函数值越小，说明预测输出和实际结果（也称期望输出）之间的差值就越小，也就说明我们构建的模型越好。学习的过程，就是不断通过训练数据进行预测，不断调整预测输出与实际输出差异，使的损失值最小的过程。

常用损失函数

均方误差

均方误差（Mean square error）损失函数。均方误差是回归问题常用的损失函数，它是预测值与目标值之间差值的平方和，其公式和图像如下所示：
为什么使用误差的平方
• 曲线的最低点是可导的
• 越接近最低点，曲线的坡度逐渐放缓，有助于通过当前的梯度来判断接近最低点的程度（是否逐渐减少步长，以免错过最低点）

交叉熵

交叉熵（Cross Entropy）。交叉熵是Shannon信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息，在机器学习中用来作为分类问题的损失函数。假设有两个概率分布，tk与yk ,其交叉熵函数公式及图形如下所示：

模拟计算交叉熵

python 复制代码

import numpy as np

y_true =  [0  ,0  ,0  ,1  ,0]
pred_y1 = [0.1,0.1,0.1,0.6,0.1]
pred_y2 = [0.1,0.1,0.05,0.7,0.05]
pred_y3 = [0.01,0.02,0.03,0.8,0.05]


total1,total2,total3 = 0,0,0 
for i in range(len(y_true)):
    total1 += y_true[i] * np.log(pred_y1[i])
    total2 += y_true[i] * np.log(pred_y2[i])
    total3 += y_true[i] * np.log(pred_y3[i])

total1,total2,total3 = -total1,-total2,-total3 

print('交叉熵1:',total1)
print('交叉熵2:',total2)
print('交叉熵3:',total3)

注意：交叉熵越小越好

梯度下降

梯度（gradient）是一个向量（矢量，有方向），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大。损失函数沿梯度相反方向收敛最快（即能最快找到极值点）。当梯度向量为零（或接近于零），说明损失函数到达一个极小值点，模型准确度达到一个极大值点。

通过损失函数，我们将"寻找最优参数"问题，转换为了"寻找损失函数最小值"问题。
寻找步骤：
（1）损失是否足够小？如果不是，计算损失函数的梯度。
（2）按梯度的反方向走一小步，以缩小损失。
（3）循环到（1）。
这种按照负梯度不停地调整函数权值的过程就叫作" 梯度下降法 "。通过这样的方法，改变每个神经元与其他神经元的连接权重及自身的偏置，让损失函数的值下降得更快，进而将值收敛到损失函数的某个极小值。