数学基础 -- 均方误差(Mean Squared Error, MSE)与交叉熵(Cross-Entropy)的数学原理

均方误差(Mean Squared Error, MSE)与交叉熵(Cross-Entropy)的数学原理

1. 均方误差(Mean Squared Error, MSE)

均方误差主要用于回归问题,度量预测值与实际值之间的平均平方差。其数学公式为:

MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2

  • n n n:样本数量。
  • y i y_i yi:实际值。
  • y ^ i \hat{y}_i y^i:预测值。

原理:

  1. 误差 :首先计算每个样本的预测值与实际值之间的差,即 y i − y ^ i y_i - \hat{y}_i yi−y^i。
  2. 平方:将误差进行平方,这样可以避免正负误差相互抵消,也使得较大的误差权重更大。
  3. 平均:对所有样本的平方误差求平均值,以获得整体的误差。

均方误差的值越小,说明模型的预测结果越接近实际值。由于平方的原因,MSE 对异常值(outliers)较为敏感。

2. 交叉熵(Cross-Entropy)

交叉熵损失函数通常用于分类问题,度量两个概率分布之间的差异。其数学公式根据任务的不同,分为二分类交叉熵多分类交叉熵

二分类交叉熵损失

在二分类问题中,假设输出结果为类别 y ∈ { 0 , 1 } y \in \{0, 1\} y∈{0,1},预测值为 y ^ \hat{y} y^,则交叉熵损失的公式为:

Binary Cross-Entropy = − 1 n ∑ i = 1 n [ y i ⋅ log ⁡ ( y ^ i ) + ( 1 − y i ) ⋅ log ⁡ ( 1 − y ^ i ) ] \text{Binary Cross-Entropy} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \cdot \log(\hat{y}_i) + (1 - y_i) \cdot \log(1 - \hat{y}_i) \right] Binary Cross-Entropy=−n1i=1∑n[yi⋅log(y^i)+(1−yi)⋅log(1−y^i)]

  • y i y_i yi:实际类别标签(0 或 1)。
  • y ^ i \hat{y}_i y^i:模型输出的预测概率。

多分类交叉熵损失

在多分类问题中,假设类别有 k k k 个,模型输出为一个概率分布 y ^ i = [ y ^ i 1 , y ^ i 2 , ... , y ^ i k ] \hat{y}i = [\hat{y}{i1}, \hat{y}{i2}, \dots, \hat{y}{ik}] y^i=[y^i1,y^i2,...,y^ik],则多分类交叉熵损失的公式为:

Categorical Cross-Entropy = − 1 n ∑ i = 1 n ∑ j = 1 k y i j ⋅ log ⁡ ( y ^ i j ) \text{Categorical Cross-Entropy} = -\frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{k} y_{ij} \cdot \log(\hat{y}_{ij}) Categorical Cross-Entropy=−n1i=1∑nj=1∑kyij⋅log(y^ij)

  • y i j y_{ij} yij:实际类别的 one-hot 编码表示,即如果样本 i i i 属于类别 j j j,则 y i j = 1 y_{ij} = 1 yij=1,否则 y i j = 0 y_{ij} = 0 yij=0。
  • y ^ i j \hat{y}_{ij} y^ij:模型输出的预测概率,表示样本 i i i 属于类别 j j j 的概率。

原理:

  1. 信息熵:交叉熵源于信息论中的"熵"概念,表示一个概率分布与目标分布之间的不确定性。熵越大,模型的预测结果越不确定。
  2. 对数函数:使用对数函数是为了惩罚模型对于实际类别的错误预测,对数值越接近0,损失越大。
  3. 求和:交叉熵通过对所有样本和类别求和,得出整体的损失值。

交叉熵损失函数在分类问题中非常常用,因为它直接与概率相关,能够准确反映模型对分类任务的表现。交叉熵越小,说明模型预测的概率分布与实际类别分布越接近。

相关推荐
sz66cm3 天前
数学基础 --线性代数之理解矩阵乘法
数学基础
sz66cm14 天前
数学基础 -- 拉普拉斯算子的原理与应用
深度学习·机器学习·计算机视觉·数学基础
martian6651 个月前
【人工智能数学基础篇】——深入详解多变量微积分:在机器学习模型中优化损失函数时应用
人工智能·机器学习·微积分·数学基础
sz66cm6 个月前
数学基础 -- 自然常数e的定义与复利计算
数学基础·自然常数
Papicatch7 个月前
人工智能--搭建人工神经网络
人工智能·python·深度学习·机器学习·人工神经网络
清园暖歌8 个月前
数学建模 —— 人工神经网络(6)
人工智能·算法·机器学习·数学建模·人工神经网络
嘿嘻哈呀10 个月前
大数定律与中心极限定理
人工智能·概率论·数理统计·数学基础·切比雪夫不等式
政安晨1 年前
政安晨:示例演绎机器学习中(深度学习)神经网络的数学基础——快速理解核心概念(二){两篇文章讲清楚}
python·深度学习·神经网络·机器学习·numpy·数学基础·张量运算
LiongLoure1 年前
[足式机器人]Part2 Dr. CAN学习笔记-Ch00 - 数学知识基础
学习笔记·数学基础