分类与回归算法（一）- 模型评价指标

文章目录

一、常用的分类与回归算法
- [1. 常用分类算法](#1. 常用分类算法)
- [1.2 常用回归算法](#1.2 常用回归算法)
二、分类模型评价指标
- [1. 混淆矩阵（Confusion Matrix）](#1. 混淆矩阵（Confusion Matrix）)
- [2. 准确率（Accuracy）](#2. 准确率（Accuracy）)
- - [2.1 核心定义](#2.1 核心定义)
  - [2.2 计算公式](#2.2 计算公式)
  - [2.3 关键特点](#2.3 关键特点)
  - [2.4 适用场景](#2.4 适用场景)
- [3. 精确率（Precision）](#3. 精确率（Precision）)
- - [3.1 核心定义](#3.1 核心定义)
  - [3.2 计算公式](#3.2 计算公式)
  - [3.3 关键特点](#3.3 关键特点)
  - [3.4 适用场景](#3.4 适用场景)
- [4. 召回率（Recall）](#4. 召回率（Recall）)
- - [4.1 核心定义](#4.1 核心定义)
  - [4.2 计算公式](#4.2 计算公式)
  - [4.3 关键特点](#4.3 关键特点)
  - [4.4 适用场景](#4.4 适用场景)
  - [4.5 精确率与召回率的权衡](#4.5 精确率与召回率的权衡)
- [5. F1分数（F1-Score）](#5. F1分数（F1-Score）)
- - [5.1 核心定义](#5.1 核心定义)
  - [5.2 计算公式](#5.2 计算公式)
  - [5.3 关键特点](#5.3 关键特点)
  - [5.4 适用场景](#5.4 适用场景)
- [6. ROC曲线与AUC值](#6. ROC曲线与AUC值)
- - [6.1 ROC曲线（Receiver Operating Characteristic Curve）](#6.1 ROC曲线（Receiver Operating Characteristic Curve）)
  - - [6.1.1 核心定义](#6.1.1 核心定义)
    - [6.1.2 关键指标推导](#6.1.2 关键指标推导)
    - [6.1.3 曲线绘制逻辑](#6.1.3 曲线绘制逻辑)
    - [6.1.4 曲线解读](#6.1.4 曲线解读)
  - [6.2 AUC值（Area Under ROC Curve）](#6.2 AUC值（Area Under ROC Curve）)
  - - [6.2.1 核心定义](#6.2.1 核心定义)
    - [6.2.2 数值解读](#6.2.2 数值解读)
    - [6.2.3 适用场景](#6.2.3 适用场景)
  - [6.2.4 优势总结](#6.2.4 优势总结)
三、回归模型评价指标
- [1. 绝对误差与相对误差](#1. 绝对误差与相对误差)
- - [1.1 绝对误差（Absolute Error, AE）](#1.1 绝对误差（Absolute Error, AE）)
  - - [1.1.1 核心定义](#1.1.1 核心定义)
    - [1.1.2 计算公式](#1.1.2 计算公式)
    - [1.1.3 特点与应用](#1.1.3 特点与应用)
  - [1.2 相对误差（Relative Error, RE）](#1.2 相对误差（Relative Error, RE）)
  - - [1.2.1 核心定义](#1.2.1 核心定义)
    - [1.2.2 计算公式](#1.2.2 计算公式)
    - [1.2.3 特点与应用](#1.2.3 特点与应用)
- [2. 平均绝对误差（Mean Absolute Error, MAE）](#2. 平均绝对误差（Mean Absolute Error, MAE）)
- - [2.1 核心定义](#2.1 核心定义)
  - [2.2 计算公式](#2.2 计算公式)
  - [2.3 关键特点](#2.3 关键特点)
  - [2.4 适用场景](#2.4 适用场景)
- [3. 均方误差（Mean Squared Error, MSE）](#3. 均方误差（Mean Squared Error, MSE）)
- - [3.1 核心定义](#3.1 核心定义)
  - [3.2 计算公式](#3.2 计算公式)
  - [3.3 关键特点](#3.3 关键特点)
  - [3.4 适用场景](#3.4 适用场景)
- [4. 均方根误差（Root Mean Squared Error, RMSE）](#4. 均方根误差（Root Mean Squared Error, RMSE）)
- - [4.1 核心定义](#4.1 核心定义)
  - [4.2 计算公式](#4.2 计算公式)
  - [4.3 关键特点](#4.3 关键特点)
  - [4.4 适用场景](#4.4 适用场景)
- [5. 平均绝对百分误差（Mean Absolute Percentage Error, MAPE）](#5. 平均绝对百分误差（Mean Absolute Percentage Error, MAPE）)
- - [5.1 核心定义](#5.1 核心定义)
  - [5.2 计算公式](#5.2 计算公式)
  - [5.3 关键特点](#5.3 关键特点)
  - [5.4 适用场景](#5.4 适用场景)
- [6. 决定系数（Coefficient of Determination, $R^2^$）](#6. 决定系数（Coefficient of Determination, $R^2^$ ）)
- - [6.1 核心定义](#6.1 核心定义)
  - [6.2 计算公式](#6.2 计算公式)
  - [6.3 数值解读](#6.3 数值解读)
  - [6.4 关键特点](#6.4 关键特点)
  - [6.5 适用场景](#6.5 适用场景)
  - [6.6 调整后$R^2^$（补充）](#6.6 调整后 $R^2^$ （补充）)

一、常用的分类与回归算法

分类与回归算法的核心差异在于预测目标的类型，但两者均遵循"数据拟合-规律学习-预测应用"的逻辑。以下分别介绍两类任务中应用最广泛的经典算法。

1. 常用分类算法

分类算法的目标是构建输入特征→离散类别的映射关系，需兼顾准确率、泛化能力与可解释性。

算法名称	核心原理	适用场景	优点	缺点
逻辑回归（LR）	通过Sigmoid函数将线性回归输出（(z=w^Tx+b)）映射到[0,1]区间，输出正类概率，结合阈值判定类别	1. 二分类任务（如用户流失预测、疾病诊断） 2. 需快速训练与强解释性场景（如金融风控）	1. 模型结构简单，易理解 2. 可解释性强（系数体现特征重要性） 3. 训练速度快，资源消耗低	1. 无法处理特征与类别间的非线性关系 2. 对数据中的异常值敏感
决策树（DT）	以"特征分裂"为核心，递归选择信息增益最大/Gini系数最小的特征，划分数据为高纯度子集，形成树形结构（叶节点为类别）	1. 特征与类别呈非线性关系场景 2. 需可视化解释场景（如电商购买决策分析） 3. 无需复杂数据预处理（可直接处理类别型特征）	1. 决策逻辑直观，易可视化 2. 抗噪声能力较强 3. 无需特征归一化/标准化	1. 易过拟合（需通过剪枝优化） 2. 对数据微小变化敏感，稳定性差
支持向量机（SVM）	在特征空间寻找"最大间隔超平面"分隔样本；通过核函数（如线性核、RBF核）将低维非线性问题映射到高维线性可分空间	1. 小样本、高维数据场景（如文本分类） 2. 对泛化能力要求高的场景（如图像局部特征分类）	1. 泛化能力强，不易过拟合 2. 对小样本数据友好 3. 高维数据下表现优秀	1. 训练速度慢，不适用于百万级以上样本 2. 核函数选择依赖经验，调参难度大
随机森林（RF）	基于集成学习思想，通过Bootstrap采样生成多棵决策树，每棵树用部分特征训练；最终通过投票（分类）输出结果，降低单树过拟合风险	1. 非线性分类任务 2. 需平衡准确率与鲁棒性场景（如医疗数据分类） 3. 特征维度较高但样本量中等的场景	1. 抗过拟合能力强 2. 对异常值不敏感 3. 可输出特征重要性，辅助特征筛选	1. 模型复杂，单棵树决策逻辑难解释 2. 训练时间长于单棵决策树，资源消耗高

1.2 常用回归算法

回归算法的目标是构建输入特征→连续数值的映射，需重点关注预测值与真实值的误差大小。

算法名称（英文缩写）	核心原理	适用场景	优点	缺点
线性回归（LR）	假设特征与目标值线性相关，通过最小化残差平方和求解线性方程(y=w_1x_1+...+w_nx_n+b)中的参数	1. 特征与目标值线性相关场景（如房屋面积→房价、广告投入→销售额） 2. 需快速获取基础预测结果（如初步业务预测）	1. 模型简单，易理解 2. 可解释性强（系数直接反映特征影响程度）	1. 无法处理非线性关系 2. 对特征多重共线性敏感（需通过正则化优化）
岭回归（Ridge）与Lasso回归	线性回归的正则化改进： - 岭回归：损失函数加入L2正则项（(\lambda\sum w_i^2)），缓解共线性 - Lasso回归：损失函数加入L1正则项（(\lambda\sum w_i)），实现特征选择	1. 岭回归：特征存在多重共线性场景（如身高与体重相关的人体数据预测） 2. Lasso回归：需简化模型、筛选关键特征（如用户消费金额预测）	1. 解决线性回归的过拟合与共线性问题 2. Lasso可自动实现特征选择	1. 需通过交叉验证调优正则化参数(\lambda) 2. 仍无法直接处理强非线性关系
决策树回归（DTR）	与分类决策树结构类似，叶节点为连续值；以MSE或MAE最小为目标分裂特征，使子节点目标值更接近	1. 特征与目标值非线性相关场景（如温度、湿度→农作物产量） 2. 需处理混合类型特征（如数值型年龄+类别型职业）	1. 可捕捉非线性关系 2. 无需数据归一化/标准化 3. 决策逻辑直观	1. 易过拟合（需剪枝优化） 2. 对数据微小波动敏感，稳定性差
梯度提升树（GBDT）	基于boosting集成思想，迭代训练弱回归器（多为决策树），每棵树修正前一轮误差，最终叠加结果	1. 需高精度预测场景（如股票收益率、用户生命周期价值预测） 2. 特征与目标值非线性且关系复杂的任务	1. 预测精度高 2. 对非线性关系拟合能力强	1. 训练速度慢（串行训练） 2. 易过拟合（需调优学习率、树深度等参数）

二、分类模型评价指标

分类模型的评价需结合"预测准确性""类别平衡单一指标无法全面反映模型性能，需多指标协同分析。

1. 混淆矩阵（Confusion Matrix）

混淆矩阵是二分类任务中对"预测结果与真实结果"的交叉统计，定义4个核心指标：

TP（True Positive）：真实为正类，预测为正类（正确预测的正样本）；
TN（True Negative）：真实为负类，预测为负类（正确预测的负样本）；
FP（False Positive）：真实为负类，预测为正类（误判为正的负样本，也称"假阳性"）；
FN（False Negative）：真实为正类，预测为负类（误判为负的正样本，也称"假阴性"）。

所有分类评价指标均基于混淆矩阵计算，例如二分类混淆矩阵结构如下：

	预测正类	预测负类
真实正类	TP	FN
真实负类	FP	TN

2. 准确率（Accuracy）

2.1 核心定义

准确率是所有样本中"预测结果与真实结果一致"的比例，反映模型的整体分类正确性，是最直观的评价指标之一。

2.2 计算公式

基于混淆矩阵推导，公式为：
A c c u r a c y = 正确预测的样本数总样本数 = T P + T N T P + T N + F P + F N Accuracy = \frac{正确预测的样本数}{总样本数} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=总样本数正确预测的样本数=TP+TN+FP+FNTP+TN

2.3 关键特点

优点：计算简单、含义直观，适合快速判断模型的基础性能；
局限性 ：在类别不平衡场景下完全失效。例如"疾病诊断"中，若99%样本为健康人（负类），模型即使将所有样本预测为"健康"，准确率仍能达到99%，但完全无法识别患病患者（正类），无实际业务价值。

2.4 适用场景

仅适用于类别分布均衡的场景，如"普通用户/会员用户分类"（两类样本比例接近1:1）、"图片风格分类"（不同风格图片数量差异小）等。

3. 精确率（Precision）

3.1 核心定义

精确率（也称"查准率"）是"预测为正类的样本中，真实为正类"的比例，聚焦正类预测结果的准确性，避免"假阳性"对业务的影响。

3.2 计算公式

P r e c i s i o n = 真实正类且预测正类的样本数预测为正类的总样本数 = T P T P + F P Precision = \frac{真实正类且预测正类的样本数}{预测为正类的总样本数} = \frac{TP}{TP + FP} Precision=预测为正类的总样本数真实正类且预测正类的样本数=TP+FPTP

3.3 关键特点

精确率越高，说明"预测为正类的样本中，真正的正类占比越高"，即"少犯错、不冤枉负类"；
仅关注"预测正类"的准确性，对"预测负类"的表现无直接反映。

3.4 适用场景

需严格控制"假阳性"的业务场景，例如：

垃圾邮件分类：避免将正常邮件（负类）误判为垃圾邮件（正类），导致用户错过重要信息；
金融风控：避免将正常用户（负类）误判为风险用户（正类），影响用户体验；
电商商品推荐：避免推荐用户不感兴趣的商品（假阳性推荐），降低用户反感度。

4. 召回率（Recall）

4.1 核心定义

召回率（也称"查全率"）是"真实为正类的样本中，被预测为正类"的比例，聚焦正类样本的覆盖能力，避免"假阴性"对业务的影响。

4.2 计算公式

R e c a l l = 真实正类且预测正类的样本数真实为正类的总样本数 = T P T P + F N Recall = \frac{真实正类且预测正类的样本数}{真实为正类的总样本数} = \frac{TP}{TP + FN} Recall=真实为正类的总样本数真实正类且预测正类的样本数=TP+FNTP

4.3 关键特点

召回率越高，说明"真正的正类样本被识别出来的比例越高"，即"不漏掉正类"；
仅关注"真实正类"的覆盖度，对"真实负类"的误判情况无直接反映。

4.4 适用场景

需严格控制"假阴性"的业务场景，例如：

疾病诊断：避免将患病患者（正类）误判为健康人（负类），导致延误治疗；
欺诈交易检测：避免漏掉欺诈交易（正类），减少企业资金损失；
地震/火灾风险预测：避免漏判潜在风险（正类），保障生命财产安全。

4.5 精确率与召回率的权衡

两者呈负相关关系：提高精确率会导致召回率下降，反之亦然。例如：

若想让"垃圾邮件分类"的精确率更高（少误判正常邮件），需设置更严格的判定阈值，可能会漏掉部分模糊的垃圾邮件（召回率下降）；
若想让"疾病诊断"的召回率更高（不漏掉患者），需设置更宽松的判定阈值，可能会将部分健康人误判为患者（精确率下降）。

5. F1分数（F1-Score）

5.1 核心定义

F1分数是精确率（Precision）与召回率（Recall）的调和平均数，用于综合评价两者的均衡性，避免因单一指标优异而掩盖另一指标的缺陷。

5.2 计算公式

调和平均数的特点是"对较小值更敏感"，若Precision或Recall中有一个极低，F1分数会显著降低，从而避免"偏科模型"被高估。公式为：
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall

5.3 关键特点

F1分数的取值范围为[0,1]，越接近1说明模型的Precision与Recall越均衡且优秀；
当Precision与Recall相等时，F1分数等于两者的数值（例如Precision=0.8、Recall=0.8，则F1=0.8）；
若其中一个指标接近0（如Precision=0.9、Recall=0.1），F1分数会被拉低至0.18，直观反映模型的"偏科"问题。

5.4 适用场景

适用于"无法明确优先保证Precision还是Recall"的场景，例如：

客户投诉分类：既需避免将正常反馈误判为投诉（控制FP，保证Precision），也需避免漏掉真实投诉（控制FN，保证Recall），此时需用F1分数平衡两者；
文本情感分析：既需准确识别正面/负面情感（保证Precision），也需覆盖所有情感倾向样本（保证Recall），F1分数是核心评价指标。

6. ROC曲线与AUC值

6.1 ROC曲线（Receiver Operating Characteristic Curve）

6.1.1 核心定义

ROC曲线是通过调整分类阈值，绘制不同阈值下"真阳性率（TPR）"与"假阳性率（FPR）"的关系曲线，直观反映模型在"识别正类"与"避免误判负类"之间的平衡能力。

6.1.2 关键指标推导

基于混淆矩阵，先定义两个基础指标：

真阳性率（TPR） ：即召回率（Recall），反映正类的覆盖能力，公式为： T P R = T P T P + F N TPR = \frac{TP}{TP + FN} TPR=TP+FNTP；
假阳性率（FPR） ：真实为负类的样本中，被预测为正类的比例，反映对负类的误判程度，公式为： F P R = F P F P + T N FPR = \frac{FP}{FP + TN} FPR=FP+TNFP。

6.1.3 曲线绘制逻辑

模型输出每个样本的"正类概率"（如逻辑回归的Sigmoid输出）；
从高到低依次取不同的概率作为"分类阈值"（例如阈值=0.9、0.8、...、0.1）；
对每个阈值，计算对应的TPR和FPR；
以FPR为横轴、TPR为纵轴，将所有（FPR, TPR）点连接，形成ROC曲线。

6.1.4 曲线解读

理想曲线：紧贴左上角（FPR接近0，TPR接近1），说明模型能以极低的假阳性率，实现极高的正类覆盖；
随机猜测曲线：沿对角线分布（TPR=FPR），此时模型性能与"抛硬币"一致，无实用价值；
曲线对比：若A模型的ROC曲线完全"包裹"B模型的曲线，说明A模型性能优于B模型。

6.2 AUC值（Area Under ROC Curve）

6.2.1 核心定义

AUC值是ROC曲线下方的面积，取值范围为[0.5,1]，用于量化ROC曲线的性能，避免仅通过图形主观判断的偏差。

6.2.2 数值解读

AUC=0.5：模型性能与随机猜测一致（如随机输出正类概率），无业务价值；
0.5 < AUC < 0.7：模型性能较差，需优化特征或算法；
0.7 < AUC < 0.9：模型性能良好，可满足多数业务需求；
AUC > 0.9：模型性能优秀，对正类与负类的区分能力极强。

6.2.3 适用场景

是类别不平衡场景的"黄金指标"，例如：

罕见疾病诊断 （正类样本占比<1%）、信用卡欺诈检测（正类样本占比<0.1%）：此时准确率完全失效，而AUC能有效反映模型对少数正类的识别能力；
模型对比场景：当多个模型的ROC曲线交叉时，通过AUC值的大小可直接判断性能优劣（AUC大的模型更优）。

6.2.4 优势总结

对类别不平衡不敏感：仅关注"正类概率的相对排序"，而非绝对阈值；
可比较性强：不同模型的AUC值可直接横向对比，无需考虑阈值差异；
稳定性高：受极端样本（如少量异常值）的影响较小，结果更可靠。

三、回归模型评价指标

回归模型的核心是预测真实值的偏差程度，不同指标对误差的敏感度、计算逻辑及适用场景存在显著差异。

1. 绝对误差与相对误差

绝对误差与相对误差是回归模型误差分析的"基础单元"，用于描述单个样本的预测偏差，是后续衍生指标（如平均绝对误差）的计算基础。

1.1 绝对误差（Absolute Error, AE）

1.1.1 核心定义

绝对误差是"单个样本预测值与真实值的绝对值差"，反映单个预测结果的"绝对偏差大小"，不考虑偏差方向（如"预测值比真实值高5"与"低5"的绝对误差相同）。

1.1.2 计算公式

设某样本的真实值为( y i y_i yi)，模型预测值为( y ^ i \hat{y}_i y^i)，则该样本的绝对误差为：
A E = ∣ y i − y ^ i ∣ AE = |y_i - \hat{y}_i| AE=∣yi−y^i∣

1.1.3 特点与应用

特点：计算简单，直观反映单个样本的偏差程度，单位与目标值一致（如预测房价时，AE=5万元代表该样本预测偏差为5万元）；
应用：多用于单个样本的误差分析（如"某套房屋预测价与真实价的偏差"），或作为后续"平均绝对误差"的计算组件，不直接用于整体模型评价。

1.2 相对误差（Relative Error, RE）

1.2.1 核心定义

相对误差是"绝对误差与真实值的比值"，用于衡量"偏差占真实值的比例"，解决了"绝对误差无法横向对比不同量级样本"的问题。

1.2.2 计算公式

为避免真实值(y_i=0)时无意义，通常取绝对值计算，公式为：
R E = ∣ y i − y ^ i y i ∣ RE = \left| \frac{y_i - \hat{y}_i}{y_i} \right| RE= yiyi−y^i

若需以百分比形式呈现（更易理解），可进一步转化为：
相对误差（ % ） = ∣ y i − y ^ i y i ∣ × 100 % 相对误差（\%）= \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\% 相对误差（%）= yiyi−y^i ×100%

1.2.3 特点与应用

特点：无量纲（无单位），可横向对比不同量级样本的偏差程度。例如：预测"100万元房价"时AE=5万元，相对误差为5%；预测"10万元二手车价"时AE=2万元，相对误差为20%，虽前者绝对误差更大，但后者偏差占比更高，模型对二手车价的预测精度更差；
应用：适用于"样本目标值量级差异大"的场景，如"同时预测10万元家电与1000万元设备的价格"，通过相对误差判断模型对不同量级样本的预测稳定性。

2. 平均绝对误差（Mean Absolute Error, MAE）

2.1 核心定义

平均绝对误差是"所有样本绝对误差的平均值"，反映模型预测结果的"整体平均偏差水平"，是最直观的回归评价指标之一。

2.2 计算公式

设总样本数为(n)，则：
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i| MAE=n1i=1∑n∣yi−y^i∣

2.3 关键特点

优点：
1. 对异常值不敏感：因使用"绝对值"计算，避免了异常值（如极端大偏差样本）的误差被平方放大（对比均方误差），结果更稳健；
2. 单位与目标值一致：如预测"日销售额"时，MAE=2000元代表模型平均每天预测偏差为2000元，业务解读性强；
缺点：
1. 无法区分偏差方向：仅反映"偏差大小"，不体现"预测值整体偏高还是偏低"；
2. 损失函数不可导：若以MAE为目标函数训练模型（如线性回归），在误差=0处存在不可导点，需用次梯度方法优化，计算效率略低于均方误差。

2.4 适用场景

适用于"对异常值敏感较低"或"需直观理解平均偏差"的场景，例如：

日常用电量预测：偶尔极端天气导致的异常用电数据（如高温天用电量骤增），不应过度影响模型整体评价；
商品库存需求预测：需明确"平均每天预测偏差多少件"，以便制定库存补货策略，MAE的单位（件）可直接指导业务。

3. 均方误差（Mean Squared Error, MSE）

3.1 核心定义

均方误差是"所有样本误差的平方的平均值"，通过"平方"放大了大误差的权重，更聚焦于"减少极端偏差样本的影响"。

3.2 计算公式

M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2

3.3 关键特点

优点：
1. 对大误差惩罚更重：平方项会显著放大极端偏差的影响（如某样本误差=10，平方后=100；误差=1，平方后=1），能强制模型优先降低大偏差，适合对"极端错误零容忍"的场景；
2. 损失函数可导：在整个定义域内光滑可导，便于使用梯度下降等高效优化算法训练模型（如线性回归、神经网络），是最常用的回归损失函数之一；
缺点：
1. 对异常值敏感：异常值的平方误差会大幅拉高MSE，导致指标结果偏离模型真实性能（例如100个样本中99个误差=1，1个误差=100，MSE≈100，远高于真实平均偏差）；
2. 单位不直观：单位是目标值的平方（如预测房价时，MSE=25万元²），需进一步开方（转化为均方根误差）才能与目标值单位一致，业务解读性较弱。

3.4 适用场景

适用于"需严格控制极端偏差"的场景，例如：

自动驾驶速度预测：若模型对车速的预测偏差过大（如实际车速60km/h，预测为30km/h），可能导致交通事故，需通过MSE优先降低此类大偏差；
药物剂量预测：剂量偏差过大会影响疗效甚至危及生命，需用MSE惩罚极端错误，确保模型预测精度。

4. 均方根误差（Root Mean Squared Error, RMSE）

4.1 核心定义

均方根误差是"均方误差的平方根"，解决了MSE单位不直观的问题，同时保留了"惩罚大误差"的特性，是回归任务中"兼顾直观性与大误差惩罚"的首选指标。

4.2 计算公式

R M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 = M S E RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2} = \sqrt{MSE} RMSE=n1i=1∑n(yi−y^i)2 =MSE

4.3 关键特点

优点：
1. 单位与目标值一致：继承了MAE的直观性（如预测房价时，RMSE=5万元代表模型整体偏差水平为5万元），同时保留了MSE对大误差的惩罚能力；
2. 综合性能均衡：既避免了MAE对大误差"不敏感"的问题，也解决了MSE"单位不直观"的缺陷，是多数回归场景的"默认评价指标"；
缺点：仍对异常值敏感（因基于MSE计算），若数据中存在大量极端值，需先处理异常值再使用RMSE评价。

4.4 适用场景

适用于"需平衡直观性与大误差惩罚"的多数回归任务，例如：

房价预测：既需直观了解"平均偏差多少万元"，也需控制极端偏差（如豪宅预测偏差过大）；
电商销售额预测：需明确"平均每天偏差多少元"，同时避免大促期间销售额预测严重失准（影响库存与供应链）。

5. 平均绝对百分误差（Mean Absolute Percentage Error, MAPE）

5.1 核心定义

平均绝对百分误差是"所有样本相对误差的平均值"，以"百分比"形式量化模型的"相对偏差水平"，适合对比不同量级或不同任务的模型性能。

5.2 计算公式

为避免真实值(y_i=0)导致分母为0，实际应用中常加入极小值(\epsilon)（如(10^{-8})），公式为：
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i + ϵ ∣ × 100 % MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i + \epsilon} \right| \times 100\% MAPE=n1i=1∑n yi+ϵyi−y^i ×100%

若数据中无(y_i=0)的样本，可简化为：
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i ∣ × 100 % MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\% MAPE=n1i=1∑n yiyi−y^i ×100%

5.3 关键特点

优点：
1. 无量纲且直观：以百分比形式呈现（如MAPE=5%代表模型平均相对偏差为5%），可横向对比不同任务的模型性能（如同时对比"房价预测"与"家电销量预测"的精度）；
2. 业务解读性强：百分比形式更符合业务逻辑（如"销售额预测偏差5%"比"偏差2000元"更易被决策者理解）；
缺点：
1. 对接近0的真实值敏感：若某样本( y i y_i yi)极小（如预测"某小众商品日销量=1件"），即使绝对误差=1，相对误差也为100%，会大幅拉高MAPE；
2. 无法处理( y i y_i yi=0)的样本：需提前过滤或填充( y i y_i yi=0)的样本，否则公式无意义。

5.4 适用场景

适用于"样本目标值量级差异大"或"需跨任务对比模型"的场景，例如：

多品类商品销量预测：同时预测"日销量1000件的服装"与"日销量10件的饰品"，MAPE可统一用百分比对比两者的预测精度；
跨行业模型对比：对比"金融领域的股价预测"与"零售领域的客流预测"，MAPE的无量纲特性使其成为唯一可行的横向对比指标。

6. 决定系数（Coefficient of Determination, (R²)）

6.1 核心定义

决定系数（也称"R平方"）用于衡量"模型能解释目标值变异的比例"，取值范围为(( − ∞ -\infty −∞, 1])，反映模型的"拟合优度"------即模型相比"简单用目标值平均值预测"的提升程度。

6.2 计算公式

需先定义两个关键平方和：

总平方和（Total Sum of Squares, SST） ：反映目标值本身的变异程度（即"不用模型时的固有偏差"），公式为(SST = ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^n (y_i - \bar{y})^2 ∑i=1n(yi−yˉ)2)，其中( y ˉ \bar{y} yˉ)是所有样本的目标值平均值；
残差平方和（Residual Sum of Squares, SSE） ：反映模型预测的偏差程度（即"用模型后的剩余偏差"），公式为(SSE = ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n (y_i - \hat{y}_i)^2 ∑i=1n(yi−y^i)2)。

决定系数的计算公式为：
R 2 = 1 − S S E S S T R^2 = 1 - \frac{SSE}{SST} R2=1−SSTSSE

6.3 数值解读

(R² = 1)：模型完美拟合所有样本，SSE=0（预测值与真实值完全一致），模型能100%解释目标值的变异；
(R² = 0)：模型预测结果与"直接用目标值平均值预测"一致（SSE=SST），模型无任何解释力；
(R² < 0)：模型性能极差，甚至不如"用平均值预测"（SSE > SST），通常因模型选择错误（如用线性模型拟合强非线性数据）或数据预处理不当导致。

6.4 关键特点

优点：
1. 量化模型解释力：直接反映模型相比"基准模型（平均值）"的提升，是判断模型是否"有用"的核心指标；
2. 适用于模型对比：相同任务下，(R^2)越大的模型拟合优度越高，无需考虑目标值单位；
缺点：
1. 易受样本量影响：添加无关特征可能导致(R²)轻微上升（即使特征无实际意义），需用"调整后(R²)"（Adjusted (R²)）修正；
2. 对异常值敏感：极端值会拉高SST，可能导致(R²)虚高（如异常值使SST增大，(\frac{SSE}{SST})减小，(R²)上升）。

6.5 适用场景

适用于"需评估模型解释力"或"判断模型是否优于基准"的场景，例如：

经济学数据分析：如"GDP影响因素分析"，需明确"模型中的特征（如消费、投资）能解释多少比例的GDP变异"；
模型迭代优化：对比不同版本模型的(R²)，判断优化是否有效（如添加新特征后(R²)从0.6提升至0.8，说明模型解释力显著增强）。

6.6 调整后(R²)（补充）

为解决"添加无关特征导致(R²)虚高"的问题，调整后(R²)引入了"特征数量"的惩罚项，公式为：
A d j u s t e d R 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) Adjusted\ R^2 = 1 - \frac{SSE/(n - k - 1)}{SST/(n - 1)} Adjusted R2=1−SST/(n−1)SSE/(n−k−1)

其中(k)是模型的特征数量。当添加无关特征时，(k)增大，调整后(R^2)可能下降，更能真实反映模型性能，适合多特征回归场景（如线性回归、逻辑回归）。

分类与回归算法（一）- 模型评价指标

文章目录

一、常用的分类与回归算法

1. 常用分类算法

1.2 常用回归算法

二、分类模型评价指标

1. 混淆矩阵（Confusion Matrix）

2. 准确率（Accuracy）

2.1 核心定义

2.2 计算公式

2.3 关键特点

2.4 适用场景

3. 精确率（Precision）

3.1 核心定义

3.2 计算公式

3.3 关键特点

3.4 适用场景

4. 召回率（Recall）

4.1 核心定义

4.2 计算公式

4.3 关键特点

4.4 适用场景

4.5 精确率与召回率的权衡

5. F1分数（F1-Score）

5.1 核心定义

5.2 计算公式

5.3 关键特点

5.4 适用场景

6. ROC曲线与AUC值

6.1 ROC曲线（Receiver Operating Characteristic Curve）

6.1.1 核心定义

6.1.2 关键指标推导

6.1.3 曲线绘制逻辑

6.1.4 曲线解读

6.2 AUC值（Area Under ROC Curve）

6.2.1 核心定义

6.2.2 数值解读

6.2.3 适用场景

6.2.4 优势总结

三、回归模型评价指标

1. 绝对误差与相对误差

1.1 绝对误差（Absolute Error, AE）

1.1.1 核心定义

1.1.2 计算公式

1.1.3 特点与应用

1.2 相对误差（Relative Error, RE）

1.2.1 核心定义

1.2.2 计算公式

1.2.3 特点与应用

2. 平均绝对误差（Mean Absolute Error, MAE）

2.1 核心定义

2.2 计算公式

2.3 关键特点

2.4 适用场景

3. 均方误差（Mean Squared Error, MSE）

3.1 核心定义

3.2 计算公式

3.3 关键特点

3.4 适用场景

4. 均方根误差（Root Mean Squared Error, RMSE）

4.1 核心定义

4.2 计算公式

4.3 关键特点

4.4 适用场景

5. 平均绝对百分误差（Mean Absolute Percentage Error, MAPE）

5.1 核心定义

5.2 计算公式

5.3 关键特点

5.4 适用场景

6. 决定系数（Coefficient of Determination, (R2)）

6.1 核心定义

6.2 计算公式

6.3 数值解读

6.4 关键特点

6.5 适用场景

6.6 调整后(R2)（补充）

6. 决定系数（Coefficient of Determination, (R²)）

6.6 调整后(R²)（补充）