分类与回归算法(一)- 模型评价指标

文章目录

  • 一、常用的分类与回归算法
    • [1. 常用分类算法](#1. 常用分类算法)
    • [1.2 常用回归算法](#1.2 常用回归算法)
  • 二、分类模型评价指标
    • [1. 混淆矩阵(Confusion Matrix)](#1. 混淆矩阵(Confusion Matrix))
    • [2. 准确率(Accuracy)](#2. 准确率(Accuracy))
      • [2.1 核心定义](#2.1 核心定义)
      • [2.2 计算公式](#2.2 计算公式)
      • [2.3 关键特点](#2.3 关键特点)
      • [2.4 适用场景](#2.4 适用场景)
    • [3. 精确率(Precision)](#3. 精确率(Precision))
      • [3.1 核心定义](#3.1 核心定义)
      • [3.2 计算公式](#3.2 计算公式)
      • [3.3 关键特点](#3.3 关键特点)
      • [3.4 适用场景](#3.4 适用场景)
    • [4. 召回率(Recall)](#4. 召回率(Recall))
      • [4.1 核心定义](#4.1 核心定义)
      • [4.2 计算公式](#4.2 计算公式)
      • [4.3 关键特点](#4.3 关键特点)
      • [4.4 适用场景](#4.4 适用场景)
      • [4.5 精确率与召回率的权衡](#4.5 精确率与召回率的权衡)
    • [5. F1分数(F1-Score)](#5. F1分数(F1-Score))
      • [5.1 核心定义](#5.1 核心定义)
      • [5.2 计算公式](#5.2 计算公式)
      • [5.3 关键特点](#5.3 关键特点)
      • [5.4 适用场景](#5.4 适用场景)
    • [6. ROC曲线与AUC值](#6. ROC曲线与AUC值)
      • [6.1 ROC曲线(Receiver Operating Characteristic Curve)](#6.1 ROC曲线(Receiver Operating Characteristic Curve))
        • [6.1.1 核心定义](#6.1.1 核心定义)
        • [6.1.2 关键指标推导](#6.1.2 关键指标推导)
        • [6.1.3 曲线绘制逻辑](#6.1.3 曲线绘制逻辑)
        • [6.1.4 曲线解读](#6.1.4 曲线解读)
      • [6.2 AUC值(Area Under ROC Curve)](#6.2 AUC值(Area Under ROC Curve))
        • [6.2.1 核心定义](#6.2.1 核心定义)
        • [6.2.2 数值解读](#6.2.2 数值解读)
        • [6.2.3 适用场景](#6.2.3 适用场景)
      • [6.2.4 优势总结](#6.2.4 优势总结)
  • 三、回归模型评价指标
    • [1. 绝对误差与相对误差](#1. 绝对误差与相对误差)
      • [1.1 绝对误差(Absolute Error, AE)](#1.1 绝对误差(Absolute Error, AE))
        • [1.1.1 核心定义](#1.1.1 核心定义)
        • [1.1.2 计算公式](#1.1.2 计算公式)
        • [1.1.3 特点与应用](#1.1.3 特点与应用)
      • [1.2 相对误差(Relative Error, RE)](#1.2 相对误差(Relative Error, RE))
        • [1.2.1 核心定义](#1.2.1 核心定义)
        • [1.2.2 计算公式](#1.2.2 计算公式)
        • [1.2.3 特点与应用](#1.2.3 特点与应用)
    • [2. 平均绝对误差(Mean Absolute Error, MAE)](#2. 平均绝对误差(Mean Absolute Error, MAE))
      • [2.1 核心定义](#2.1 核心定义)
      • [2.2 计算公式](#2.2 计算公式)
      • [2.3 关键特点](#2.3 关键特点)
      • [2.4 适用场景](#2.4 适用场景)
    • [3. 均方误差(Mean Squared Error, MSE)](#3. 均方误差(Mean Squared Error, MSE))
      • [3.1 核心定义](#3.1 核心定义)
      • [3.2 计算公式](#3.2 计算公式)
      • [3.3 关键特点](#3.3 关键特点)
      • [3.4 适用场景](#3.4 适用场景)
    • [4. 均方根误差(Root Mean Squared Error, RMSE)](#4. 均方根误差(Root Mean Squared Error, RMSE))
      • [4.1 核心定义](#4.1 核心定义)
      • [4.2 计算公式](#4.2 计算公式)
      • [4.3 关键特点](#4.3 关键特点)
      • [4.4 适用场景](#4.4 适用场景)
    • [5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE)](#5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE))
      • [5.1 核心定义](#5.1 核心定义)
      • [5.2 计算公式](#5.2 计算公式)
      • [5.3 关键特点](#5.3 关键特点)
      • [5.4 适用场景](#5.4 适用场景)
    • [6. 决定系数(Coefficient of Determination, \(R^2^\))](#6. 决定系数(Coefficient of Determination, R^2^))
      • [6.1 核心定义](#6.1 核心定义)
      • [6.2 计算公式](#6.2 计算公式)
      • [6.3 数值解读](#6.3 数值解读)
      • [6.4 关键特点](#6.4 关键特点)
      • [6.5 适用场景](#6.5 适用场景)
      • [6.6 调整后\(R^2^\)(补充)](#6.6 调整后R^2^(补充))

一、常用的分类与回归算法

分类与回归算法的核心差异在于预测目标的类型,但两者均遵循"数据拟合-规律学习-预测应用"的逻辑。以下分别介绍两类任务中应用最广泛的经典算法。

1. 常用分类算法

分类算法的目标是构建输入特征→离散类别的映射关系,需兼顾准确率、泛化能力与可解释性。

算法名称 核心原理 适用场景 优点 缺点
逻辑回归(LR) 通过Sigmoid函数将线性回归输出((z=w^Tx+b))映射到[0,1]区间,输出正类概率,结合阈值判定类别 1. 二分类任务(如用户流失预测、疾病诊断) 2. 需快速训练与强解释性场景(如金融风控) 1. 模型结构简单,易理解 2. 可解释性强(系数体现特征重要性) 3. 训练速度快,资源消耗低 1. 无法处理特征与类别间的非线性关系 2. 对数据中的异常值敏感
决策树(DT) 以"特征分裂"为核心,递归选择信息增益最大/Gini系数最小的特征,划分数据为高纯度子集,形成树形结构(叶节点为类别) 1. 特征与类别呈非线性关系场景 2. 需可视化解释场景(如电商购买决策分析) 3. 无需复杂数据预处理(可直接处理类别型特征) 1. 决策逻辑直观,易可视化 2. 抗噪声能力较强 3. 无需特征归一化/标准化 1. 易过拟合(需通过剪枝优化) 2. 对数据微小变化敏感,稳定性差
支持向量机(SVM) 在特征空间寻找"最大间隔超平面"分隔样本;通过核函数(如线性核、RBF核)将低维非线性问题映射到高维线性可分空间 1. 小样本、高维数据场景(如文本分类) 2. 对泛化能力要求高的场景(如图像局部特征分类) 1. 泛化能力强,不易过拟合 2. 对小样本数据友好 3. 高维数据下表现优秀 1. 训练速度慢,不适用于百万级以上样本 2. 核函数选择依赖经验,调参难度大
随机森林(RF) 基于集成学习思想,通过Bootstrap采样生成多棵决策树,每棵树用部分特征训练;最终通过投票(分类)输出结果,降低单树过拟合风险 1. 非线性分类任务 2. 需平衡准确率与鲁棒性场景(如医疗数据分类) 3. 特征维度较高但样本量中等的场景 1. 抗过拟合能力强 2. 对异常值不敏感 3. 可输出特征重要性,辅助特征筛选 1. 模型复杂,单棵树决策逻辑难解释 2. 训练时间长于单棵决策树,资源消耗高

1.2 常用回归算法

回归算法的目标是构建输入特征→连续数值的映射,需重点关注预测值与真实值的误差大小。

算法名称(英文缩写) 核心原理 适用场景 优点 缺点
线性回归(LR) 假设特征与目标值线性相关,通过最小化残差平方和求解线性方程(y=w_1x_1+...+w_nx_n+b)中的参数 1. 特征与目标值线性相关场景(如房屋面积→房价、广告投入→销售额) 2. 需快速获取基础预测结果(如初步业务预测) 1. 模型简单,易理解 2. 可解释性强(系数直接反映特征影响程度) 1. 无法处理非线性关系 2. 对特征多重共线性敏感(需通过正则化优化)
岭回归(Ridge)与Lasso回归 线性回归的正则化改进: - 岭回归:损失函数加入L2正则项((\lambda\sum w_i^2)),缓解共线性 - Lasso回归:损失函数加入L1正则项((\lambda\sum w_i)),实现特征选择 1. 岭回归:特征存在多重共线性场景(如身高与体重相关的人体数据预测) 2. Lasso回归:需简化模型、筛选关键特征(如用户消费金额预测) 1. 解决线性回归的过拟合与共线性问题 2. Lasso可自动实现特征选择 1. 需通过交叉验证调优正则化参数(\lambda) 2. 仍无法直接处理强非线性关系
决策树回归(DTR) 与分类决策树结构类似,叶节点为连续值;以MSE或MAE最小为目标分裂特征,使子节点目标值更接近 1. 特征与目标值非线性相关场景(如温度、湿度→农作物产量) 2. 需处理混合类型特征(如数值型年龄+类别型职业) 1. 可捕捉非线性关系 2. 无需数据归一化/标准化 3. 决策逻辑直观 1. 易过拟合(需剪枝优化) 2. 对数据微小波动敏感,稳定性差
梯度提升树(GBDT) 基于boosting集成思想,迭代训练弱回归器(多为决策树),每棵树修正前一轮误差,最终叠加结果 1. 需高精度预测场景(如股票收益率、用户生命周期价值预测) 2. 特征与目标值非线性且关系复杂的任务 1. 预测精度高 2. 对非线性关系拟合能力强 1. 训练速度慢(串行训练) 2. 易过拟合(需调优学习率、树深度等参数)

二、分类模型评价指标

分类模型的评价需结合"预测准确性""类别平衡单一指标无法全面反映模型性能,需多指标协同分析。

1. 混淆矩阵(Confusion Matrix)

混淆矩阵是二分类任务中对"预测结果与真实结果"的交叉统计,定义4个核心指标:

  • TP(True Positive):真实为正类,预测为正类(正确预测的正样本);
  • TN(True Negative):真实为负类,预测为负类(正确预测的负样本);
  • FP(False Positive):真实为负类,预测为正类(误判为正的负样本,也称"假阳性");
  • FN(False Negative):真实为正类,预测为负类(误判为负的正样本,也称"假阴性")。

所有分类评价指标均基于混淆矩阵计算,例如二分类混淆矩阵结构如下:

预测正类 预测负类
真实正类 TP FN
真实负类 FP TN

2. 准确率(Accuracy)

2.1 核心定义

准确率是所有样本中"预测结果与真实结果一致"的比例,反映模型的整体分类正确性,是最直观的评价指标之一。

2.2 计算公式

基于混淆矩阵推导,公式为:
A c c u r a c y = 正确预测的样本数 总样本数 = T P + T N T P + T N + F P + F N Accuracy = \frac{正确预测的样本数}{总样本数} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=总样本数正确预测的样本数=TP+TN+FP+FNTP+TN

2.3 关键特点

  • 优点:计算简单、含义直观,适合快速判断模型的基础性能;
  • 局限性 :在类别不平衡场景下完全失效。例如"疾病诊断"中,若99%样本为健康人(负类),模型即使将所有样本预测为"健康",准确率仍能达到99%,但完全无法识别患病患者(正类),无实际业务价值。

2.4 适用场景

仅适用于类别分布均衡的场景,如"普通用户/会员用户分类"(两类样本比例接近1:1)、"图片风格分类"(不同风格图片数量差异小)等。

3. 精确率(Precision)

3.1 核心定义

精确率(也称"查准率")是"预测为正类的样本中,真实为正类"的比例,聚焦正类预测结果的准确性,避免"假阳性"对业务的影响。

3.2 计算公式

P r e c i s i o n = 真实正类且预测正类的样本数 预测为正类的总样本数 = T P T P + F P Precision = \frac{真实正类且预测正类的样本数}{预测为正类的总样本数} = \frac{TP}{TP + FP} Precision=预测为正类的总样本数真实正类且预测正类的样本数=TP+FPTP

3.3 关键特点

  • 精确率越高,说明"预测为正类的样本中,真正的正类占比越高",即"少犯错、不冤枉负类";
  • 仅关注"预测正类"的准确性,对"预测负类"的表现无直接反映。

3.4 适用场景

需严格控制"假阳性"的业务场景,例如:

  • 垃圾邮件分类:避免将正常邮件(负类)误判为垃圾邮件(正类),导致用户错过重要信息;
  • 金融风控:避免将正常用户(负类)误判为风险用户(正类),影响用户体验;
  • 电商商品推荐:避免推荐用户不感兴趣的商品(假阳性推荐),降低用户反感度。

4. 召回率(Recall)

4.1 核心定义

召回率(也称"查全率")是"真实为正类的样本中,被预测为正类"的比例,聚焦正类样本的覆盖能力,避免"假阴性"对业务的影响。

4.2 计算公式

R e c a l l = 真实正类且预测正类的样本数 真实为正类的总样本数 = T P T P + F N Recall = \frac{真实正类且预测正类的样本数}{真实为正类的总样本数} = \frac{TP}{TP + FN} Recall=真实为正类的总样本数真实正类且预测正类的样本数=TP+FNTP

4.3 关键特点

  • 召回率越高,说明"真正的正类样本被识别出来的比例越高",即"不漏掉正类";
  • 仅关注"真实正类"的覆盖度,对"真实负类"的误判情况无直接反映。

4.4 适用场景

需严格控制"假阴性"的业务场景,例如:

  • 疾病诊断:避免将患病患者(正类)误判为健康人(负类),导致延误治疗;
  • 欺诈交易检测:避免漏掉欺诈交易(正类),减少企业资金损失;
  • 地震/火灾风险预测:避免漏判潜在风险(正类),保障生命财产安全。

4.5 精确率与召回率的权衡

两者呈负相关关系:提高精确率会导致召回率下降,反之亦然。例如:

  • 若想让"垃圾邮件分类"的精确率更高(少误判正常邮件),需设置更严格的判定阈值,可能会漏掉部分模糊的垃圾邮件(召回率下降);
  • 若想让"疾病诊断"的召回率更高(不漏掉患者),需设置更宽松的判定阈值,可能会将部分健康人误判为患者(精确率下降)。

5. F1分数(F1-Score)

5.1 核心定义

F1分数是精确率(Precision)与召回率(Recall)的调和平均数,用于综合评价两者的均衡性,避免因单一指标优异而掩盖另一指标的缺陷。

5.2 计算公式

调和平均数的特点是"对较小值更敏感",若Precision或Recall中有一个极低,F1分数会显著降低,从而避免"偏科模型"被高估。公式为:
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall

5.3 关键特点

  • F1分数的取值范围为[0,1],越接近1说明模型的Precision与Recall越均衡且优秀;
  • 当Precision与Recall相等时,F1分数等于两者的数值(例如Precision=0.8、Recall=0.8,则F1=0.8);
  • 若其中一个指标接近0(如Precision=0.9、Recall=0.1),F1分数会被拉低至0.18,直观反映模型的"偏科"问题。

5.4 适用场景

适用于"无法明确优先保证Precision还是Recall"的场景,例如:

  • 客户投诉分类:既需避免将正常反馈误判为投诉(控制FP,保证Precision),也需避免漏掉真实投诉(控制FN,保证Recall),此时需用F1分数平衡两者;
  • 文本情感分析:既需准确识别正面/负面情感(保证Precision),也需覆盖所有情感倾向样本(保证Recall),F1分数是核心评价指标。

6. ROC曲线与AUC值

6.1 ROC曲线(Receiver Operating Characteristic Curve)

6.1.1 核心定义

ROC曲线是通过调整分类阈值,绘制不同阈值下"真阳性率(TPR)"与"假阳性率(FPR)"的关系曲线,直观反映模型在"识别正类"与"避免误判负类"之间的平衡能力。

6.1.2 关键指标推导

基于混淆矩阵,先定义两个基础指标:

  • 真阳性率(TPR) :即召回率(Recall),反映正类的覆盖能力,公式为: T P R = T P T P + F N TPR = \frac{TP}{TP + FN} TPR=TP+FNTP;
  • 假阳性率(FPR) :真实为负类的样本中,被预测为正类的比例,反映对负类的误判程度,公式为: F P R = F P F P + T N FPR = \frac{FP}{FP + TN} FPR=FP+TNFP。
6.1.3 曲线绘制逻辑
  1. 模型输出每个样本的"正类概率"(如逻辑回归的Sigmoid输出);
  2. 从高到低依次取不同的概率作为"分类阈值"(例如阈值=0.9、0.8、...、0.1);
  3. 对每个阈值,计算对应的TPR和FPR;
  4. 以FPR为横轴、TPR为纵轴,将所有(FPR, TPR)点连接,形成ROC曲线。
6.1.4 曲线解读
  • 理想曲线:紧贴左上角(FPR接近0,TPR接近1),说明模型能以极低的假阳性率,实现极高的正类覆盖;
  • 随机猜测曲线:沿对角线分布(TPR=FPR),此时模型性能与"抛硬币"一致,无实用价值;
  • 曲线对比:若A模型的ROC曲线完全"包裹"B模型的曲线,说明A模型性能优于B模型。

6.2 AUC值(Area Under ROC Curve)

6.2.1 核心定义

AUC值是ROC曲线下方的面积,取值范围为[0.5,1],用于量化ROC曲线的性能,避免仅通过图形主观判断的偏差。

6.2.2 数值解读
  • AUC=0.5:模型性能与随机猜测一致(如随机输出正类概率),无业务价值;
  • 0.5 < AUC < 0.7:模型性能较差,需优化特征或算法;
  • 0.7 < AUC < 0.9:模型性能良好,可满足多数业务需求;
  • AUC > 0.9:模型性能优秀,对正类与负类的区分能力极强。
6.2.3 适用场景

类别不平衡场景的"黄金指标",例如:

  • 罕见疾病诊断 (正类样本占比<1%)、信用卡欺诈检测(正类样本占比<0.1%):此时准确率完全失效,而AUC能有效反映模型对少数正类的识别能力;
  • 模型对比场景:当多个模型的ROC曲线交叉时,通过AUC值的大小可直接判断性能优劣(AUC大的模型更优)。

6.2.4 优势总结

  • 对类别不平衡不敏感:仅关注"正类概率的相对排序",而非绝对阈值;
  • 可比较性强:不同模型的AUC值可直接横向对比,无需考虑阈值差异;
  • 稳定性高:受极端样本(如少量异常值)的影响较小,结果更可靠。

三、回归模型评价指标

回归模型的核心是预测真实值的偏差程度,不同指标对误差的敏感度、计算逻辑及适用场景存在显著差异。

1. 绝对误差与相对误差

绝对误差与相对误差是回归模型误差分析的"基础单元",用于描述单个样本的预测偏差,是后续衍生指标(如平均绝对误差)的计算基础。

1.1 绝对误差(Absolute Error, AE)

1.1.1 核心定义

绝对误差是"单个样本预测值与真实值的绝对值差",反映单个预测结果的"绝对偏差大小",不考虑偏差方向(如"预测值比真实值高5"与"低5"的绝对误差相同)。

1.1.2 计算公式

设某样本的真实值为( y i y_i yi),模型预测值为( y ^ i \hat{y}_i y^i),则该样本的绝对误差为:
A E = ∣ y i − y ^ i ∣ AE = |y_i - \hat{y}_i| AE=∣yi−y^i∣

1.1.3 特点与应用
  • 特点:计算简单,直观反映单个样本的偏差程度,单位与目标值一致(如预测房价时,AE=5万元代表该样本预测偏差为5万元);
  • 应用:多用于单个样本的误差分析(如"某套房屋预测价与真实价的偏差"),或作为后续"平均绝对误差"的计算组件,不直接用于整体模型评价。

1.2 相对误差(Relative Error, RE)

1.2.1 核心定义

相对误差是"绝对误差与真实值的比值",用于衡量"偏差占真实值的比例",解决了"绝对误差无法横向对比不同量级样本"的问题。

1.2.2 计算公式

为避免真实值(y_i=0)时无意义,通常取绝对值计算,公式为:
R E = ∣ y i − y ^ i y i ∣ RE = \left| \frac{y_i - \hat{y}_i}{y_i} \right| RE= yiyi−y^i

若需以百分比形式呈现(更易理解),可进一步转化为:
相对误差( % ) = ∣ y i − y ^ i y i ∣ × 100 % 相对误差(\%)= \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\% 相对误差(%)= yiyi−y^i ×100%

1.2.3 特点与应用
  • 特点:无量纲(无单位),可横向对比不同量级样本的偏差程度。例如:预测"100万元房价"时AE=5万元,相对误差为5%;预测"10万元二手车价"时AE=2万元,相对误差为20%,虽前者绝对误差更大,但后者偏差占比更高,模型对二手车价的预测精度更差;
  • 应用:适用于"样本目标值量级差异大"的场景,如"同时预测10万元家电与1000万元设备的价格",通过相对误差判断模型对不同量级样本的预测稳定性。

2. 平均绝对误差(Mean Absolute Error, MAE)

2.1 核心定义

平均绝对误差是"所有样本绝对误差的平均值",反映模型预测结果的"整体平均偏差水平",是最直观的回归评价指标之一。

2.2 计算公式

设总样本数为(n),则:
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i| MAE=n1i=1∑n∣yi−y^i∣

2.3 关键特点

  • 优点
    1. 对异常值不敏感:因使用"绝对值"计算,避免了异常值(如极端大偏差样本)的误差被平方放大(对比均方误差),结果更稳健;
    2. 单位与目标值一致:如预测"日销售额"时,MAE=2000元代表模型平均每天预测偏差为2000元,业务解读性强;
  • 缺点
    1. 无法区分偏差方向:仅反映"偏差大小",不体现"预测值整体偏高还是偏低";
    2. 损失函数不可导:若以MAE为目标函数训练模型(如线性回归),在误差=0处存在不可导点,需用次梯度方法优化,计算效率略低于均方误差。

2.4 适用场景

适用于"对异常值敏感较低"或"需直观理解平均偏差"的场景,例如:

  • 日常用电量预测:偶尔极端天气导致的异常用电数据(如高温天用电量骤增),不应过度影响模型整体评价;
  • 商品库存需求预测:需明确"平均每天预测偏差多少件",以便制定库存补货策略,MAE的单位(件)可直接指导业务。

3. 均方误差(Mean Squared Error, MSE)

3.1 核心定义

均方误差是"所有样本误差的平方的平均值",通过"平方"放大了大误差的权重,更聚焦于"减少极端偏差样本的影响"。

3.2 计算公式

M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2

3.3 关键特点

  • 优点
    1. 对大误差惩罚更重:平方项会显著放大极端偏差的影响(如某样本误差=10,平方后=100;误差=1,平方后=1),能强制模型优先降低大偏差,适合对"极端错误零容忍"的场景;
    2. 损失函数可导:在整个定义域内光滑可导,便于使用梯度下降等高效优化算法训练模型(如线性回归、神经网络),是最常用的回归损失函数之一;
  • 缺点
    1. 对异常值敏感:异常值的平方误差会大幅拉高MSE,导致指标结果偏离模型真实性能(例如100个样本中99个误差=1,1个误差=100,MSE≈100,远高于真实平均偏差);
    2. 单位不直观:单位是目标值的平方(如预测房价时,MSE=25万元²),需进一步开方(转化为均方根误差)才能与目标值单位一致,业务解读性较弱。

3.4 适用场景

适用于"需严格控制极端偏差"的场景,例如:

  • 自动驾驶速度预测:若模型对车速的预测偏差过大(如实际车速60km/h,预测为30km/h),可能导致交通事故,需通过MSE优先降低此类大偏差;
  • 药物剂量预测:剂量偏差过大会影响疗效甚至危及生命,需用MSE惩罚极端错误,确保模型预测精度。

4. 均方根误差(Root Mean Squared Error, RMSE)

4.1 核心定义

均方根误差是"均方误差的平方根",解决了MSE单位不直观的问题,同时保留了"惩罚大误差"的特性,是回归任务中"兼顾直观性与大误差惩罚"的首选指标。

4.2 计算公式

R M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 = M S E RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2} = \sqrt{MSE} RMSE=n1i=1∑n(yi−y^i)2 =MSE

4.3 关键特点

  • 优点
    1. 单位与目标值一致:继承了MAE的直观性(如预测房价时,RMSE=5万元代表模型整体偏差水平为5万元),同时保留了MSE对大误差的惩罚能力;
    2. 综合性能均衡:既避免了MAE对大误差"不敏感"的问题,也解决了MSE"单位不直观"的缺陷,是多数回归场景的"默认评价指标";
  • 缺点:仍对异常值敏感(因基于MSE计算),若数据中存在大量极端值,需先处理异常值再使用RMSE评价。

4.4 适用场景

适用于"需平衡直观性与大误差惩罚"的多数回归任务,例如:

  • 房价预测:既需直观了解"平均偏差多少万元",也需控制极端偏差(如豪宅预测偏差过大);
  • 电商销售额预测:需明确"平均每天偏差多少元",同时避免大促期间销售额预测严重失准(影响库存与供应链)。

5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE)

5.1 核心定义

平均绝对百分误差是"所有样本相对误差的平均值",以"百分比"形式量化模型的"相对偏差水平",适合对比不同量级或不同任务的模型性能。

5.2 计算公式

为避免真实值(y_i=0)导致分母为0,实际应用中常加入极小值(\epsilon)(如(10^{-8})),公式为:
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i + ϵ ∣ × 100 % MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i + \epsilon} \right| \times 100\% MAPE=n1i=1∑n yi+ϵyi−y^i ×100%

若数据中无(y_i=0)的样本,可简化为:
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i ∣ × 100 % MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\% MAPE=n1i=1∑n yiyi−y^i ×100%

5.3 关键特点

  • 优点
    1. 无量纲且直观:以百分比形式呈现(如MAPE=5%代表模型平均相对偏差为5%),可横向对比不同任务的模型性能(如同时对比"房价预测"与"家电销量预测"的精度);
    2. 业务解读性强:百分比形式更符合业务逻辑(如"销售额预测偏差5%"比"偏差2000元"更易被决策者理解);
  • 缺点
    1. 对接近0的真实值敏感:若某样本( y i y_i yi)极小(如预测"某小众商品日销量=1件"),即使绝对误差=1,相对误差也为100%,会大幅拉高MAPE;
    2. 无法处理( y i y_i yi=0)的样本:需提前过滤或填充( y i y_i yi=0)的样本,否则公式无意义。

5.4 适用场景

适用于"样本目标值量级差异大"或"需跨任务对比模型"的场景,例如:

  • 多品类商品销量预测:同时预测"日销量1000件的服装"与"日销量10件的饰品",MAPE可统一用百分比对比两者的预测精度;
  • 跨行业模型对比:对比"金融领域的股价预测"与"零售领域的客流预测",MAPE的无量纲特性使其成为唯一可行的横向对比指标。

6. 决定系数(Coefficient of Determination, (R2))

6.1 核心定义

决定系数(也称"R平方")用于衡量"模型能解释目标值变异的比例",取值范围为(( − ∞ -\infty −∞, 1]),反映模型的"拟合优度"------即模型相比"简单用目标值平均值预测"的提升程度。

6.2 计算公式

需先定义两个关键平方和:

  • 总平方和(Total Sum of Squares, SST) :反映目标值本身的变异程度(即"不用模型时的固有偏差"),公式为(SST = ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^n (y_i - \bar{y})^2 ∑i=1n(yi−yˉ)2),其中( y ˉ \bar{y} yˉ)是所有样本的目标值平均值;
  • 残差平方和(Residual Sum of Squares, SSE) :反映模型预测的偏差程度(即"用模型后的剩余偏差"),公式为(SSE = ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n (y_i - \hat{y}_i)^2 ∑i=1n(yi−y^i)2)。

决定系数的计算公式为:
R 2 = 1 − S S E S S T R^2 = 1 - \frac{SSE}{SST} R2=1−SSTSSE

6.3 数值解读

  • (R2 = 1):模型完美拟合所有样本,SSE=0(预测值与真实值完全一致),模型能100%解释目标值的变异;
  • (R2 = 0):模型预测结果与"直接用目标值平均值预测"一致(SSE=SST),模型无任何解释力;
  • (R2 < 0):模型性能极差,甚至不如"用平均值预测"(SSE > SST),通常因模型选择错误(如用线性模型拟合强非线性数据)或数据预处理不当导致。

6.4 关键特点

  • 优点
    1. 量化模型解释力:直接反映模型相比"基准模型(平均值)"的提升,是判断模型是否"有用"的核心指标;
    2. 适用于模型对比:相同任务下,(R^2)越大的模型拟合优度越高,无需考虑目标值单位;
  • 缺点
    1. 易受样本量影响:添加无关特征可能导致(R2)轻微上升(即使特征无实际意义),需用"调整后(R2)"(Adjusted (R2))修正;
    2. 对异常值敏感:极端值会拉高SST,可能导致(R2)虚高(如异常值使SST增大,(\frac{SSE}{SST})减小,(R2)上升)。

6.5 适用场景

适用于"需评估模型解释力"或"判断模型是否优于基准"的场景,例如:

  • 经济学数据分析:如"GDP影响因素分析",需明确"模型中的特征(如消费、投资)能解释多少比例的GDP变异";
  • 模型迭代优化:对比不同版本模型的(R2),判断优化是否有效(如添加新特征后(R2)从0.6提升至0.8,说明模型解释力显著增强)。

6.6 调整后(R2)(补充)

为解决"添加无关特征导致(R2)虚高"的问题,调整后(R2)引入了"特征数量"的惩罚项,公式为:
A d j u s t e d R 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) Adjusted\ R^2 = 1 - \frac{SSE/(n - k - 1)}{SST/(n - 1)} Adjusted R2=1−SST/(n−1)SSE/(n−k−1)

其中(k)是模型的特征数量。当添加无关特征时,(k)增大,调整后(R^2)可能下降,更能真实反映模型性能,适合多特征回归场景(如线性回归、逻辑回归)。

相关推荐
王哈哈^_^9 小时前
【数据集】【YOLO】目标检测游泳数据集 4481 张,溺水数据集,YOLO河道、海滩游泳识别算法实战训练教程。
人工智能·算法·yolo·目标检测·计算机视觉·分类·视觉检测
极客数模11 小时前
2025年(第六届)“大湾区杯”粤港澳金融数学建模竞赛准备!严格遵循要求,拿下大奖!
大数据·python·数学建模·金融·分类·图论·boosting
Chef_Chen18 小时前
数据科学每日总结--Day8--数据挖掘
人工智能·数据挖掘
机器学习之心20 小时前
SSA-Transformer-LSTM麻雀搜索算法优化组合模型分类预测结合SHAP分析!优化深度组合模型可解释分析,Matlab代码
分类·lstm·transformer·麻雀搜索算法优化·ssa-transformer
rengang662 天前
512-Spring AI Alibaba 字段分类分级 Graph 示例
人工智能·spring·分类·spring ai·ai应用编程
极客数模2 天前
【浅析赛题,一等奖水平】思路模型数据相关资料!2025 年“大湾区杯”粤港澳金融数学建模竞赛B 题 稳定币的综合评价与发展分析~
大数据·算法·数学建模·金融·数据挖掘·图论·1024程序员节
StarPrayers.2 天前
Binary Classification& sigmoid 函数的逻辑回归&Decision Boundary
人工智能·分类·数据挖掘
spssau2 天前
SPSSAU「质量控制」模块:从可视化监控到过程优化,一站式搞定质量难题
信息可视化·数据挖掘·数据分析
深蓝电商API2 天前
从爬虫到平台:如何把你的爬虫项目做成一个技术产品?
爬虫·信息可视化·数据挖掘