机器学习 - 常用的损失函数（交叉熵、Hinge）

损失函数是一个非负实数函数，用来量化模型预测和真实标签之间的差异.

上一篇文章介绍了2种常用的损失函数，下面介绍另外2种常用的损失函数.

一、Hinge 损失函数

Hinge 损失函数是一种常用于分类任务（尤其是支持向量机，SVM）的损失函数。它衡量的是分类模型的预测结果与真实标签之间的差异，并鼓励模型不仅做出正确的分类，还要有足够的置信度。Hinge 损失函数的定义如下：

对于一个样本 (x,y)，假设：

Hinge 损失的公式为：

其中：

分类边界与间隔：
- 支持向量机的目标是找到一个超平面，将数据集中的不同类别尽可能分开，同时最大化分类边界的间隔。
- Hinge 损失不仅要求预测正确，还要求样本点距离超平面有一定的间隔（至少为 1）。这种间隔约束可以增强分类器的泛化能力。

Hinge 损失与其他损失函数的比较

Hinge 损失函数的核心思想是通过惩罚分类错误和间隔不足的样本，提高分类器的泛化能力。它是支持向量机的理论基础，在二分类问题中表现优异。尽管它对异常值敏感，但其凸性和间隔最大化的特点使得它在实践中被广泛应用。

二、交叉熵损失函数

交叉熵损失函数（Cross-Entropy Loss）是分类问题中常用的损失函数，尤其是在神经网络和逻辑回归中表现优异。其核心思想是衡量模型预测的概率分布与真实类别分布之间的差异，通常用于多分类和二分类任务。

概率匹配：
- 交叉熵损失函数惩罚模型预测分布与真实分布之间的差异。
- 如果模型将最大概率分配给正确类别：损失趋近于 0。
- 如果模型错误地分配较高概率给错误类别，损失会增大。
信息论解释：
- 交叉熵来自信息论中的熵概念，表示预测分布对真实分布的编码效率。
- 当预测分布与真实分布相同，交叉熵达到最小值。
- 当预测分布远离真实分布，交叉熵增大，表示更多的信息需要传递来纠正预测。

对于二分类问题：

对于多分类问题（使用 softmax 激活函数）：

交叉熵损失函数通过衡量预测分布和真实分布之间的差异，在分类任务中表现出色。它以概率为核心优化目标，具有直观的统计和信息论解释。同时，交叉熵损失具有广泛的适用性，尤其在深度学习和逻辑回归等场景中是不可或缺的工具。