文章目录
- 一、常用的分类与回归算法
 - 
- [1. 常用分类算法](#1. 常用分类算法)
 - [1.2 常用回归算法](#1.2 常用回归算法)
 
 - 二、分类模型评价指标
 - 
- [1. 混淆矩阵(Confusion Matrix)](#1. 混淆矩阵(Confusion Matrix))
 - [2. 准确率(Accuracy)](#2. 准确率(Accuracy))
 - 
- [2.1 核心定义](#2.1 核心定义)
 - [2.2 计算公式](#2.2 计算公式)
 - [2.3 关键特点](#2.3 关键特点)
 - [2.4 适用场景](#2.4 适用场景)
 
 - [3. 精确率(Precision)](#3. 精确率(Precision))
 - 
- [3.1 核心定义](#3.1 核心定义)
 - [3.2 计算公式](#3.2 计算公式)
 - [3.3 关键特点](#3.3 关键特点)
 - [3.4 适用场景](#3.4 适用场景)
 
 - [4. 召回率(Recall)](#4. 召回率(Recall))
 - 
- [4.1 核心定义](#4.1 核心定义)
 - [4.2 计算公式](#4.2 计算公式)
 - [4.3 关键特点](#4.3 关键特点)
 - [4.4 适用场景](#4.4 适用场景)
 - [4.5 精确率与召回率的权衡](#4.5 精确率与召回率的权衡)
 
 - [5. F1分数(F1-Score)](#5. F1分数(F1-Score))
 - 
- [5.1 核心定义](#5.1 核心定义)
 - [5.2 计算公式](#5.2 计算公式)
 - [5.3 关键特点](#5.3 关键特点)
 - [5.4 适用场景](#5.4 适用场景)
 
 - [6. ROC曲线与AUC值](#6. ROC曲线与AUC值)
 - 
- [6.1 ROC曲线(Receiver Operating Characteristic Curve)](#6.1 ROC曲线(Receiver Operating Characteristic Curve))
 - 
- [6.1.1 核心定义](#6.1.1 核心定义)
 - [6.1.2 关键指标推导](#6.1.2 关键指标推导)
 - [6.1.3 曲线绘制逻辑](#6.1.3 曲线绘制逻辑)
 - [6.1.4 曲线解读](#6.1.4 曲线解读)
 
 - [6.2 AUC值(Area Under ROC Curve)](#6.2 AUC值(Area Under ROC Curve))
 - 
- [6.2.1 核心定义](#6.2.1 核心定义)
 - [6.2.2 数值解读](#6.2.2 数值解读)
 - [6.2.3 适用场景](#6.2.3 适用场景)
 
 - [6.2.4 优势总结](#6.2.4 优势总结)
 
 
 - 三、回归模型评价指标
 - 
- [1. 绝对误差与相对误差](#1. 绝对误差与相对误差)
 - 
- [1.1 绝对误差(Absolute Error, AE)](#1.1 绝对误差(Absolute Error, AE))
 - 
- [1.1.1 核心定义](#1.1.1 核心定义)
 - [1.1.2 计算公式](#1.1.2 计算公式)
 - [1.1.3 特点与应用](#1.1.3 特点与应用)
 
 - [1.2 相对误差(Relative Error, RE)](#1.2 相对误差(Relative Error, RE))
 - 
- [1.2.1 核心定义](#1.2.1 核心定义)
 - [1.2.2 计算公式](#1.2.2 计算公式)
 - [1.2.3 特点与应用](#1.2.3 特点与应用)
 
 
 - [2. 平均绝对误差(Mean Absolute Error, MAE)](#2. 平均绝对误差(Mean Absolute Error, MAE))
 - 
- [2.1 核心定义](#2.1 核心定义)
 - [2.2 计算公式](#2.2 计算公式)
 - [2.3 关键特点](#2.3 关键特点)
 - [2.4 适用场景](#2.4 适用场景)
 
 - [3. 均方误差(Mean Squared Error, MSE)](#3. 均方误差(Mean Squared Error, MSE))
 - 
- [3.1 核心定义](#3.1 核心定义)
 - [3.2 计算公式](#3.2 计算公式)
 - [3.3 关键特点](#3.3 关键特点)
 - [3.4 适用场景](#3.4 适用场景)
 
 - [4. 均方根误差(Root Mean Squared Error, RMSE)](#4. 均方根误差(Root Mean Squared Error, RMSE))
 - 
- [4.1 核心定义](#4.1 核心定义)
 - [4.2 计算公式](#4.2 计算公式)
 - [4.3 关键特点](#4.3 关键特点)
 - [4.4 适用场景](#4.4 适用场景)
 
 - [5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE)](#5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE))
 - 
- [5.1 核心定义](#5.1 核心定义)
 - [5.2 计算公式](#5.2 计算公式)
 - [5.3 关键特点](#5.3 关键特点)
 - [5.4 适用场景](#5.4 适用场景)
 
 - [6. 决定系数(Coefficient of Determination, \(R^2^\))](#6. 决定系数(Coefficient of Determination, R^2^))
 - 
- [6.1 核心定义](#6.1 核心定义)
 - [6.2 计算公式](#6.2 计算公式)
 - [6.3 数值解读](#6.3 数值解读)
 - [6.4 关键特点](#6.4 关键特点)
 - [6.5 适用场景](#6.5 适用场景)
 - [6.6 调整后\(R^2^\)(补充)](#6.6 调整后R^2^(补充))
 
 
 
一、常用的分类与回归算法
分类与回归算法的核心差异在于预测目标的类型,但两者均遵循"数据拟合-规律学习-预测应用"的逻辑。以下分别介绍两类任务中应用最广泛的经典算法。
1. 常用分类算法
分类算法的目标是构建输入特征→离散类别的映射关系,需兼顾准确率、泛化能力与可解释性。
| 算法名称 | 核心原理 | 适用场景 | 优点 | 缺点 | 
|---|---|---|---|---|
| 逻辑回归(LR) | 通过Sigmoid函数将线性回归输出((z=w^Tx+b))映射到[0,1]区间,输出正类概率,结合阈值判定类别 | 1. 二分类任务(如用户流失预测、疾病诊断) 2. 需快速训练与强解释性场景(如金融风控) | 1. 模型结构简单,易理解 2. 可解释性强(系数体现特征重要性) 3. 训练速度快,资源消耗低 | 1. 无法处理特征与类别间的非线性关系 2. 对数据中的异常值敏感 | 
| 决策树(DT) | 以"特征分裂"为核心,递归选择信息增益最大/Gini系数最小的特征,划分数据为高纯度子集,形成树形结构(叶节点为类别) | 1. 特征与类别呈非线性关系场景 2. 需可视化解释场景(如电商购买决策分析) 3. 无需复杂数据预处理(可直接处理类别型特征) | 1. 决策逻辑直观,易可视化 2. 抗噪声能力较强 3. 无需特征归一化/标准化 | 1. 易过拟合(需通过剪枝优化) 2. 对数据微小变化敏感,稳定性差 | 
| 支持向量机(SVM) | 在特征空间寻找"最大间隔超平面"分隔样本;通过核函数(如线性核、RBF核)将低维非线性问题映射到高维线性可分空间 | 1. 小样本、高维数据场景(如文本分类) 2. 对泛化能力要求高的场景(如图像局部特征分类) | 1. 泛化能力强,不易过拟合 2. 对小样本数据友好 3. 高维数据下表现优秀 | 1. 训练速度慢,不适用于百万级以上样本 2. 核函数选择依赖经验,调参难度大 | 
| 随机森林(RF) | 基于集成学习思想,通过Bootstrap采样生成多棵决策树,每棵树用部分特征训练;最终通过投票(分类)输出结果,降低单树过拟合风险 | 1. 非线性分类任务 2. 需平衡准确率与鲁棒性场景(如医疗数据分类) 3. 特征维度较高但样本量中等的场景 | 1. 抗过拟合能力强 2. 对异常值不敏感 3. 可输出特征重要性,辅助特征筛选 | 1. 模型复杂,单棵树决策逻辑难解释 2. 训练时间长于单棵决策树,资源消耗高 | 
1.2 常用回归算法
回归算法的目标是构建输入特征→连续数值的映射,需重点关注预测值与真实值的误差大小。
| 算法名称(英文缩写) | 核心原理 | 适用场景 | 优点 | 缺点 | 
|---|---|---|---|---|
| 线性回归(LR) | 假设特征与目标值线性相关,通过最小化残差平方和求解线性方程(y=w_1x_1+...+w_nx_n+b)中的参数 | 1. 特征与目标值线性相关场景(如房屋面积→房价、广告投入→销售额) 2. 需快速获取基础预测结果(如初步业务预测) | 1. 模型简单,易理解 2. 可解释性强(系数直接反映特征影响程度) | 1. 无法处理非线性关系 2. 对特征多重共线性敏感(需通过正则化优化) | 
| 岭回归(Ridge)与Lasso回归 | 线性回归的正则化改进: - 岭回归:损失函数加入L2正则项((\lambda\sum w_i^2)),缓解共线性 - Lasso回归:损失函数加入L1正则项((\lambda\sum w_i)),实现特征选择 | 1. 岭回归:特征存在多重共线性场景(如身高与体重相关的人体数据预测) 2. Lasso回归:需简化模型、筛选关键特征(如用户消费金额预测) | 1. 解决线性回归的过拟合与共线性问题 2. Lasso可自动实现特征选择 | 1. 需通过交叉验证调优正则化参数(\lambda) 2. 仍无法直接处理强非线性关系 | 
| 决策树回归(DTR) | 与分类决策树结构类似,叶节点为连续值;以MSE或MAE最小为目标分裂特征,使子节点目标值更接近 | 1. 特征与目标值非线性相关场景(如温度、湿度→农作物产量) 2. 需处理混合类型特征(如数值型年龄+类别型职业) | 1. 可捕捉非线性关系 2. 无需数据归一化/标准化 3. 决策逻辑直观 | 1. 易过拟合(需剪枝优化) 2. 对数据微小波动敏感,稳定性差 | 
| 梯度提升树(GBDT) | 基于boosting集成思想,迭代训练弱回归器(多为决策树),每棵树修正前一轮误差,最终叠加结果 | 1. 需高精度预测场景(如股票收益率、用户生命周期价值预测) 2. 特征与目标值非线性且关系复杂的任务 | 1. 预测精度高 2. 对非线性关系拟合能力强 | 1. 训练速度慢(串行训练) 2. 易过拟合(需调优学习率、树深度等参数) | 
二、分类模型评价指标
分类模型的评价需结合"预测准确性""类别平衡单一指标无法全面反映模型性能,需多指标协同分析。
1. 混淆矩阵(Confusion Matrix)
混淆矩阵是二分类任务中对"预测结果与真实结果"的交叉统计,定义4个核心指标:
- TP(True Positive):真实为正类,预测为正类(正确预测的正样本);
 - TN(True Negative):真实为负类,预测为负类(正确预测的负样本);
 - FP(False Positive):真实为负类,预测为正类(误判为正的负样本,也称"假阳性");
 - FN(False Negative):真实为正类,预测为负类(误判为负的正样本,也称"假阴性")。
 
所有分类评价指标均基于混淆矩阵计算,例如二分类混淆矩阵结构如下:
| 预测正类 | 预测负类 | |
|---|---|---|
| 真实正类 | TP | FN | 
| 真实负类 | FP | TN | 
2. 准确率(Accuracy)
2.1 核心定义
准确率是所有样本中"预测结果与真实结果一致"的比例,反映模型的整体分类正确性,是最直观的评价指标之一。
2.2 计算公式
基于混淆矩阵推导,公式为:
A c c u r a c y = 正确预测的样本数 总样本数 = T P + T N T P + T N + F P + F N Accuracy = \frac{正确预测的样本数}{总样本数} = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=总样本数正确预测的样本数=TP+TN+FP+FNTP+TN
2.3 关键特点
- 优点:计算简单、含义直观,适合快速判断模型的基础性能;
 - 局限性 :在类别不平衡场景下完全失效。例如"疾病诊断"中,若99%样本为健康人(负类),模型即使将所有样本预测为"健康",准确率仍能达到99%,但完全无法识别患病患者(正类),无实际业务价值。
 
2.4 适用场景
仅适用于类别分布均衡的场景,如"普通用户/会员用户分类"(两类样本比例接近1:1)、"图片风格分类"(不同风格图片数量差异小)等。
3. 精确率(Precision)
3.1 核心定义
精确率(也称"查准率")是"预测为正类的样本中,真实为正类"的比例,聚焦正类预测结果的准确性,避免"假阳性"对业务的影响。
3.2 计算公式
P r e c i s i o n = 真实正类且预测正类的样本数 预测为正类的总样本数 = T P T P + F P Precision = \frac{真实正类且预测正类的样本数}{预测为正类的总样本数} = \frac{TP}{TP + FP} Precision=预测为正类的总样本数真实正类且预测正类的样本数=TP+FPTP
3.3 关键特点
- 精确率越高,说明"预测为正类的样本中,真正的正类占比越高",即"少犯错、不冤枉负类";
 - 仅关注"预测正类"的准确性,对"预测负类"的表现无直接反映。
 
3.4 适用场景
需严格控制"假阳性"的业务场景,例如:
- 垃圾邮件分类:避免将正常邮件(负类)误判为垃圾邮件(正类),导致用户错过重要信息;
 - 金融风控:避免将正常用户(负类)误判为风险用户(正类),影响用户体验;
 - 电商商品推荐:避免推荐用户不感兴趣的商品(假阳性推荐),降低用户反感度。
 
4. 召回率(Recall)
4.1 核心定义
召回率(也称"查全率")是"真实为正类的样本中,被预测为正类"的比例,聚焦正类样本的覆盖能力,避免"假阴性"对业务的影响。
4.2 计算公式
R e c a l l = 真实正类且预测正类的样本数 真实为正类的总样本数 = T P T P + F N Recall = \frac{真实正类且预测正类的样本数}{真实为正类的总样本数} = \frac{TP}{TP + FN} Recall=真实为正类的总样本数真实正类且预测正类的样本数=TP+FNTP
4.3 关键特点
- 召回率越高,说明"真正的正类样本被识别出来的比例越高",即"不漏掉正类";
 - 仅关注"真实正类"的覆盖度,对"真实负类"的误判情况无直接反映。
 
4.4 适用场景
需严格控制"假阴性"的业务场景,例如:
- 疾病诊断:避免将患病患者(正类)误判为健康人(负类),导致延误治疗;
 - 欺诈交易检测:避免漏掉欺诈交易(正类),减少企业资金损失;
 - 地震/火灾风险预测:避免漏判潜在风险(正类),保障生命财产安全。
 
4.5 精确率与召回率的权衡
两者呈负相关关系:提高精确率会导致召回率下降,反之亦然。例如:
- 若想让"垃圾邮件分类"的精确率更高(少误判正常邮件),需设置更严格的判定阈值,可能会漏掉部分模糊的垃圾邮件(召回率下降);
 - 若想让"疾病诊断"的召回率更高(不漏掉患者),需设置更宽松的判定阈值,可能会将部分健康人误判为患者(精确率下降)。
 
5. F1分数(F1-Score)
5.1 核心定义
F1分数是精确率(Precision)与召回率(Recall)的调和平均数,用于综合评价两者的均衡性,避免因单一指标优异而掩盖另一指标的缺陷。
5.2 计算公式
调和平均数的特点是"对较小值更敏感",若Precision或Recall中有一个极低,F1分数会显著降低,从而避免"偏科模型"被高估。公式为:
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall
5.3 关键特点
- F1分数的取值范围为[0,1],越接近1说明模型的Precision与Recall越均衡且优秀;
 - 当Precision与Recall相等时,F1分数等于两者的数值(例如Precision=0.8、Recall=0.8,则F1=0.8);
 - 若其中一个指标接近0(如Precision=0.9、Recall=0.1),F1分数会被拉低至0.18,直观反映模型的"偏科"问题。
 
5.4 适用场景
适用于"无法明确优先保证Precision还是Recall"的场景,例如:
- 客户投诉分类:既需避免将正常反馈误判为投诉(控制FP,保证Precision),也需避免漏掉真实投诉(控制FN,保证Recall),此时需用F1分数平衡两者;
 - 文本情感分析:既需准确识别正面/负面情感(保证Precision),也需覆盖所有情感倾向样本(保证Recall),F1分数是核心评价指标。
 
6. ROC曲线与AUC值
6.1 ROC曲线(Receiver Operating Characteristic Curve)
6.1.1 核心定义
ROC曲线是通过调整分类阈值,绘制不同阈值下"真阳性率(TPR)"与"假阳性率(FPR)"的关系曲线,直观反映模型在"识别正类"与"避免误判负类"之间的平衡能力。
6.1.2 关键指标推导
基于混淆矩阵,先定义两个基础指标:
- 真阳性率(TPR) :即召回率(Recall),反映正类的覆盖能力,公式为: T P R = T P T P + F N TPR = \frac{TP}{TP + FN} TPR=TP+FNTP;
 - 假阳性率(FPR) :真实为负类的样本中,被预测为正类的比例,反映对负类的误判程度,公式为: F P R = F P F P + T N FPR = \frac{FP}{FP + TN} FPR=FP+TNFP。
 
6.1.3 曲线绘制逻辑
- 模型输出每个样本的"正类概率"(如逻辑回归的Sigmoid输出);
 - 从高到低依次取不同的概率作为"分类阈值"(例如阈值=0.9、0.8、...、0.1);
 - 对每个阈值,计算对应的TPR和FPR;
 - 以FPR为横轴、TPR为纵轴,将所有(FPR, TPR)点连接,形成ROC曲线。
 
6.1.4 曲线解读
- 理想曲线:紧贴左上角(FPR接近0,TPR接近1),说明模型能以极低的假阳性率,实现极高的正类覆盖;
 - 随机猜测曲线:沿对角线分布(TPR=FPR),此时模型性能与"抛硬币"一致,无实用价值;
 - 曲线对比:若A模型的ROC曲线完全"包裹"B模型的曲线,说明A模型性能优于B模型。
 
6.2 AUC值(Area Under ROC Curve)
6.2.1 核心定义
AUC值是ROC曲线下方的面积,取值范围为[0.5,1],用于量化ROC曲线的性能,避免仅通过图形主观判断的偏差。
6.2.2 数值解读
- AUC=0.5:模型性能与随机猜测一致(如随机输出正类概率),无业务价值;
 - 0.5 < AUC < 0.7:模型性能较差,需优化特征或算法;
 - 0.7 < AUC < 0.9:模型性能良好,可满足多数业务需求;
 - AUC > 0.9:模型性能优秀,对正类与负类的区分能力极强。
 
6.2.3 适用场景
是类别不平衡场景的"黄金指标",例如:
- 罕见疾病诊断 (正类样本占比<1%)、信用卡欺诈检测(正类样本占比<0.1%):此时准确率完全失效,而AUC能有效反映模型对少数正类的识别能力;
 - 模型对比场景:当多个模型的ROC曲线交叉时,通过AUC值的大小可直接判断性能优劣(AUC大的模型更优)。
 
6.2.4 优势总结
- 对类别不平衡不敏感:仅关注"正类概率的相对排序",而非绝对阈值;
 - 可比较性强:不同模型的AUC值可直接横向对比,无需考虑阈值差异;
 - 稳定性高:受极端样本(如少量异常值)的影响较小,结果更可靠。
 
三、回归模型评价指标
回归模型的核心是预测真实值的偏差程度,不同指标对误差的敏感度、计算逻辑及适用场景存在显著差异。
1. 绝对误差与相对误差
绝对误差与相对误差是回归模型误差分析的"基础单元",用于描述单个样本的预测偏差,是后续衍生指标(如平均绝对误差)的计算基础。
1.1 绝对误差(Absolute Error, AE)
1.1.1 核心定义
绝对误差是"单个样本预测值与真实值的绝对值差",反映单个预测结果的"绝对偏差大小",不考虑偏差方向(如"预测值比真实值高5"与"低5"的绝对误差相同)。
1.1.2 计算公式
设某样本的真实值为( y i y_i yi),模型预测值为( y ^ i \hat{y}_i y^i),则该样本的绝对误差为:
A E = ∣ y i − y ^ i ∣ AE = |y_i - \hat{y}_i| AE=∣yi−y^i∣
1.1.3 特点与应用
- 特点:计算简单,直观反映单个样本的偏差程度,单位与目标值一致(如预测房价时,AE=5万元代表该样本预测偏差为5万元);
 - 应用:多用于单个样本的误差分析(如"某套房屋预测价与真实价的偏差"),或作为后续"平均绝对误差"的计算组件,不直接用于整体模型评价。
 
1.2 相对误差(Relative Error, RE)
1.2.1 核心定义
相对误差是"绝对误差与真实值的比值",用于衡量"偏差占真实值的比例",解决了"绝对误差无法横向对比不同量级样本"的问题。
1.2.2 计算公式
为避免真实值(y_i=0)时无意义,通常取绝对值计算,公式为:
R E = ∣ y i − y ^ i y i ∣ RE = \left| \frac{y_i - \hat{y}_i}{y_i} \right| RE= yiyi−y^i
若需以百分比形式呈现(更易理解),可进一步转化为:
相对误差( % ) = ∣ y i − y ^ i y i ∣ × 100 % 相对误差(\%)= \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\% 相对误差(%)= yiyi−y^i ×100%
1.2.3 特点与应用
- 特点:无量纲(无单位),可横向对比不同量级样本的偏差程度。例如:预测"100万元房价"时AE=5万元,相对误差为5%;预测"10万元二手车价"时AE=2万元,相对误差为20%,虽前者绝对误差更大,但后者偏差占比更高,模型对二手车价的预测精度更差;
 - 应用:适用于"样本目标值量级差异大"的场景,如"同时预测10万元家电与1000万元设备的价格",通过相对误差判断模型对不同量级样本的预测稳定性。
 
2. 平均绝对误差(Mean Absolute Error, MAE)
2.1 核心定义
平均绝对误差是"所有样本绝对误差的平均值",反映模型预测结果的"整体平均偏差水平",是最直观的回归评价指标之一。
2.2 计算公式
设总样本数为(n),则:
M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ MAE = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i| MAE=n1i=1∑n∣yi−y^i∣
2.3 关键特点
- 优点 :
- 对异常值不敏感:因使用"绝对值"计算,避免了异常值(如极端大偏差样本)的误差被平方放大(对比均方误差),结果更稳健;
 - 单位与目标值一致:如预测"日销售额"时,MAE=2000元代表模型平均每天预测偏差为2000元,业务解读性强;
 
 - 缺点 :
- 无法区分偏差方向:仅反映"偏差大小",不体现"预测值整体偏高还是偏低";
 - 损失函数不可导:若以MAE为目标函数训练模型(如线性回归),在误差=0处存在不可导点,需用次梯度方法优化,计算效率略低于均方误差。
 
 
2.4 适用场景
适用于"对异常值敏感较低"或"需直观理解平均偏差"的场景,例如:
- 日常用电量预测:偶尔极端天气导致的异常用电数据(如高温天用电量骤增),不应过度影响模型整体评价;
 - 商品库存需求预测:需明确"平均每天预测偏差多少件",以便制定库存补货策略,MAE的单位(件)可直接指导业务。
 
3. 均方误差(Mean Squared Error, MSE)
3.1 核心定义
均方误差是"所有样本误差的平方的平均值",通过"平方"放大了大误差的权重,更聚焦于"减少极端偏差样本的影响"。
3.2 计算公式
M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2 MSE=n1i=1∑n(yi−y^i)2
3.3 关键特点
- 优点 :
- 对大误差惩罚更重:平方项会显著放大极端偏差的影响(如某样本误差=10,平方后=100;误差=1,平方后=1),能强制模型优先降低大偏差,适合对"极端错误零容忍"的场景;
 - 损失函数可导:在整个定义域内光滑可导,便于使用梯度下降等高效优化算法训练模型(如线性回归、神经网络),是最常用的回归损失函数之一;
 
 - 缺点 :
- 对异常值敏感:异常值的平方误差会大幅拉高MSE,导致指标结果偏离模型真实性能(例如100个样本中99个误差=1,1个误差=100,MSE≈100,远高于真实平均偏差);
 - 单位不直观:单位是目标值的平方(如预测房价时,MSE=25万元²),需进一步开方(转化为均方根误差)才能与目标值单位一致,业务解读性较弱。
 
 
3.4 适用场景
适用于"需严格控制极端偏差"的场景,例如:
- 自动驾驶速度预测:若模型对车速的预测偏差过大(如实际车速60km/h,预测为30km/h),可能导致交通事故,需通过MSE优先降低此类大偏差;
 - 药物剂量预测:剂量偏差过大会影响疗效甚至危及生命,需用MSE惩罚极端错误,确保模型预测精度。
 
4. 均方根误差(Root Mean Squared Error, RMSE)
4.1 核心定义
均方根误差是"均方误差的平方根",解决了MSE单位不直观的问题,同时保留了"惩罚大误差"的特性,是回归任务中"兼顾直观性与大误差惩罚"的首选指标。
4.2 计算公式
R M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 = M S E RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2} = \sqrt{MSE} RMSE=n1i=1∑n(yi−y^i)2 =MSE
4.3 关键特点
- 优点 :
- 单位与目标值一致:继承了MAE的直观性(如预测房价时,RMSE=5万元代表模型整体偏差水平为5万元),同时保留了MSE对大误差的惩罚能力;
 - 综合性能均衡:既避免了MAE对大误差"不敏感"的问题,也解决了MSE"单位不直观"的缺陷,是多数回归场景的"默认评价指标";
 
 - 缺点:仍对异常值敏感(因基于MSE计算),若数据中存在大量极端值,需先处理异常值再使用RMSE评价。
 
4.4 适用场景
适用于"需平衡直观性与大误差惩罚"的多数回归任务,例如:
- 房价预测:既需直观了解"平均偏差多少万元",也需控制极端偏差(如豪宅预测偏差过大);
 - 电商销售额预测:需明确"平均每天偏差多少元",同时避免大促期间销售额预测严重失准(影响库存与供应链)。
 
5. 平均绝对百分误差(Mean Absolute Percentage Error, MAPE)
5.1 核心定义
平均绝对百分误差是"所有样本相对误差的平均值",以"百分比"形式量化模型的"相对偏差水平",适合对比不同量级或不同任务的模型性能。
5.2 计算公式
为避免真实值(y_i=0)导致分母为0,实际应用中常加入极小值(\epsilon)(如(10^{-8})),公式为:
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i + ϵ ∣ × 100 % MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i + \epsilon} \right| \times 100\% MAPE=n1i=1∑n yi+ϵyi−y^i ×100%
若数据中无(y_i=0)的样本,可简化为:
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i ∣ × 100 % MAPE = \frac{1}{n} \sum_{i=1}^n \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100\% MAPE=n1i=1∑n yiyi−y^i ×100%
5.3 关键特点
- 优点 :
- 无量纲且直观:以百分比形式呈现(如MAPE=5%代表模型平均相对偏差为5%),可横向对比不同任务的模型性能(如同时对比"房价预测"与"家电销量预测"的精度);
 - 业务解读性强:百分比形式更符合业务逻辑(如"销售额预测偏差5%"比"偏差2000元"更易被决策者理解);
 
 - 缺点 :
- 对接近0的真实值敏感:若某样本( y i y_i yi)极小(如预测"某小众商品日销量=1件"),即使绝对误差=1,相对误差也为100%,会大幅拉高MAPE;
 - 无法处理( y i y_i yi=0)的样本:需提前过滤或填充( y i y_i yi=0)的样本,否则公式无意义。
 
 
5.4 适用场景
适用于"样本目标值量级差异大"或"需跨任务对比模型"的场景,例如:
- 多品类商品销量预测:同时预测"日销量1000件的服装"与"日销量10件的饰品",MAPE可统一用百分比对比两者的预测精度;
 - 跨行业模型对比:对比"金融领域的股价预测"与"零售领域的客流预测",MAPE的无量纲特性使其成为唯一可行的横向对比指标。
 
6. 决定系数(Coefficient of Determination, (R2))
6.1 核心定义
决定系数(也称"R平方")用于衡量"模型能解释目标值变异的比例",取值范围为(( − ∞ -\infty −∞, 1]),反映模型的"拟合优度"------即模型相比"简单用目标值平均值预测"的提升程度。
6.2 计算公式
需先定义两个关键平方和:
- 总平方和(Total Sum of Squares, SST) :反映目标值本身的变异程度(即"不用模型时的固有偏差"),公式为(SST = ∑ i = 1 n ( y i − y ˉ ) 2 \sum_{i=1}^n (y_i - \bar{y})^2 ∑i=1n(yi−yˉ)2),其中( y ˉ \bar{y} yˉ)是所有样本的目标值平均值;
 - 残差平方和(Residual Sum of Squares, SSE) :反映模型预测的偏差程度(即"用模型后的剩余偏差"),公式为(SSE = ∑ i = 1 n ( y i − y ^ i ) 2 \sum_{i=1}^n (y_i - \hat{y}_i)^2 ∑i=1n(yi−y^i)2)。
 
决定系数的计算公式为:
R 2 = 1 − S S E S S T R^2 = 1 - \frac{SSE}{SST} R2=1−SSTSSE
6.3 数值解读
- (R2 = 1):模型完美拟合所有样本,SSE=0(预测值与真实值完全一致),模型能100%解释目标值的变异;
 - (R2 = 0):模型预测结果与"直接用目标值平均值预测"一致(SSE=SST),模型无任何解释力;
 - (R2 < 0):模型性能极差,甚至不如"用平均值预测"(SSE > SST),通常因模型选择错误(如用线性模型拟合强非线性数据)或数据预处理不当导致。
 
6.4 关键特点
- 优点 :
- 量化模型解释力:直接反映模型相比"基准模型(平均值)"的提升,是判断模型是否"有用"的核心指标;
 - 适用于模型对比:相同任务下,(R^2)越大的模型拟合优度越高,无需考虑目标值单位;
 
 - 缺点 :
- 易受样本量影响:添加无关特征可能导致(R2)轻微上升(即使特征无实际意义),需用"调整后(R2)"(Adjusted (R2))修正;
 - 对异常值敏感:极端值会拉高SST,可能导致(R2)虚高(如异常值使SST增大,(\frac{SSE}{SST})减小,(R2)上升)。
 
 
6.5 适用场景
适用于"需评估模型解释力"或"判断模型是否优于基准"的场景,例如:
- 经济学数据分析:如"GDP影响因素分析",需明确"模型中的特征(如消费、投资)能解释多少比例的GDP变异";
 - 模型迭代优化:对比不同版本模型的(R2),判断优化是否有效(如添加新特征后(R2)从0.6提升至0.8,说明模型解释力显著增强)。
 
6.6 调整后(R2)(补充)
为解决"添加无关特征导致(R2)虚高"的问题,调整后(R2)引入了"特征数量"的惩罚项,公式为:
A d j u s t e d R 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) Adjusted\ R^2 = 1 - \frac{SSE/(n - k - 1)}{SST/(n - 1)} Adjusted R2=1−SST/(n−1)SSE/(n−k−1)
其中(k)是模型的特征数量。当添加无关特征时,(k)增大,调整后(R^2)可能下降,更能真实反映模型性能,适合多特征回归场景(如线性回归、逻辑回归)。