一文搞懂深度学习中的损失函数设计！

推荐直接网站在线阅读：aicoting.cn

在神经网络的训练过程中，损失函数 （ Loss Function ）决定了模型优化的方向。没有损失函数，神经网络就不知道该往哪里调整参数，也就无法真正学会任务。损失函数的设计不仅关乎模型能不能收敛，更直接影响最终的性能。

损失函数的作用

损失函数的核心任务是：衡量预测值和真实值之间的差距。

训练神经网络的目标，就是不断最小化损失函数，让模型的预测越来越准确。

$L = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2$ L=n1∑i=1n(yi−y^i)2

MSE 是回归问题最常用的损失函数，它衡量预测值和真实值的平均平方差。数值越大，说明偏差越大；数值越小，说明模型预测得越接近真实结果。但因为平方会放大误差，MSE 对异常值比较敏感。

$L = − ∑ i = 1 n y i log ⁡ ( y ^ i ) L = -\sum_{i=1}^n y_i \log(\hat{y}_i)$ L=−∑i=1nyilog(y^i)

交叉熵刻画的是两个概率分布之间的差异，一个是真实分布 y，一个是模型预测的分布 $y ^ \hat{y}$ y^。当模型预测的概率和真实标签一致时，交叉熵最小。它是分类任务的标准配置，和 Softmax 搭配使用效果最好。

$L = 1 − 2 ∣ P ∩ G ∣ ∣ P ∣ + ∣ G ∣ L = 1 - \frac{2|P \cap G|}{|P| + |G|}$ L=1−∣P∣+∣G∣2∣P∩G∣

Dice Loss 常用于图像分割，尤其是在医学图像等类别极不平衡的任务中。它直接度量预测区域和真实区域的重叠程度。Dice 系数越大说明重叠越多，损失就越小，模型效果也就越好。

$L = y ⋅ d 2 + ( 1 − y ) ⋅ max ⁡ ( 0 , m − d ) 2 L = y \cdot d^2 + (1-y) \cdot \max(0, m-d)^2$ L=y⋅d2+(1−y)⋅max(0,m−d)2

对比损失常用于度量学习，比如人脸验证或语音验证。它的目标是让同类样本的特征距离更近（收敛到一起），不同类样本的特征距离更远（至少要大于 margin）。这样训练出来的特征空间，就能更好地区分不同类别。

在实际应用中，损失函数往往不是现成可用的，而是需要结合任务特点来设计：

损失函数是神经网络的"灵魂"。它决定了模型到底在优化什么，也影响了最终能学到什么。一个好的损失函数设计，往往比单纯加深网络、增加参数更有效。

最新的文章都在公众号aicoting更新，别忘记关注哦！！！

📚推荐阅读

一文搞懂深度学习中的表征学习理论！

作者：aicoting

分享是一种信仰，连接让成长更有温度。

我们下次不见不散！