016、什么是损失函数

本文为合集收录，欢迎查看合集/专栏链接进行全部合集的系统学习。

合集完整版请参考这里。

上一节介绍了训练的大致过程。

一个模型在训练的过程中，每一轮都会输出本轮的预测值，那么如何将本轮的预测值与真实值进行对比呢？

这就要用到损失函数（Loss function）。

什么是损失函数？

损失函数是用来衡量模型预测结果与真实标签（ground truth）之间差别的函数。

一般而言，损失函数会接收两个输入，一个是本轮的预测值，另一个是标签的真实值。通过一定的算法来将预测值和真实值之间的差别计算出来。

损失函数的输出被定义为损失值（loss值），Loss值越大，说明预测值与真实值之间的差别越大。

因此神经网络在训练时，每轮训练的目的就是降低loss值，直到将loss值降低到为零，或者接近零。如此一来就说明模型训练收敛，训练过程也就结束了，这便是损失函数的作用。

上图展示了训练过程中 loss 值降低的曲线示意图。

之所以损失函数需要输出一个loss值，是因为在每次训练时都需要一个参数来衡量结果。

除此之外，损失函数还有其他的几个作用。

均方误差（Mean Squared Error, MSE）：适用于回归问题，计算模型输出与真实标签之间的平均平方差。
交叉熵损失函数（Cross-Entropy Loss）：适用于分类问题，特别是多类别分类问题。包括二元交叉熵损失函数和多元交叉熵损失函数，用于衡量模型输出与真实标签之间的差异。可参考：为什么要用交叉熵作为损失函数。
对数损失函数（Log Loss 或 Binary Cross-Entropy）：用于二分类问题，通常用于二分类问题中的概率输出模型，如逻辑回归。
KL 散度（Kullback-Leibler Divergence, KLD）：用于衡量两个概率分布之间的差异，常用于生成模型中的损失函数，如变分自编码器。
余弦相似度损失函数（Cosine Similarity Loss）：适用于度量两个向量之间的相似性，常用于人脸识别等相似性学习任务。可参考：余弦相似度

以上只是列举了一些常见的损失函数，在实际中需要根据具体的任务和模型结构，来设计和选择最适合的损失函数。

后面会有一个小的示例，用来完成一个模型的训练，到时候可以关注一下loss值的变化。

如果你想学习 AI ，欢迎来添加我的微信 (vx: ddcsggcs ），会有很多好玩的AI技术分享，可以咨询、也可以围观朋友圈呀！欢迎查看我的专栏 >>1. 专栏：计算机视觉入门与调优 , 2. 专栏：Transformer 通关与大模型实战