西瓜书的核心逻辑是 "模型→策略→算法" 三元组,所有机器学习方法都围绕这个框架展开,同时按假设空间、归纳偏好、监督/无监督/半监督/强化学习的脉络划分。
一、 机器学习基础(第1章)
- 基本定义
-
机器学习:计算机基于数据构建概率统计模型,并运用模型对未知数据进行预测与分析的学科。
-
数据集:记录的集合,每条记录是一个示例/样本,样本的属性/特征构成特征向量,样本的结果称为标记。
-
标记空间:所有标记的集合,带标记的数据集用于监督学习,无标记的用于无监督学习。
- 任务分类

- 关键概念
-
泛化能力:模型对未知数据的预测能力,是机器学习的核心目标。
-
归纳偏好:模型在假设空间中对假设的选择偏好,遵循 "奥卡姆剃刀" 原则(若多个假设与经验一致,选最简单的)。
-
NFL定理(没有免费的午餐):所有算法的期望性能相同,脱离具体问题谈算法优劣无意义。
二、 模型-策略-算法 三元组(核心框架)
西瓜书的所有监督学习算法,都可拆解为这三个部分,是贯穿全书的主线。
- 模型:假设空间
模型是输入空间到输出空间的映射,对应假设空间中的一个假设。例如:线性回归的模型是 y=wTx+by = \boldsymbol{w}^T\boldsymbol{x}+by=wTx+b,假设空间是所有可能的参数 (w,b)(\boldsymbol{w},b)(w,b) 组合。
- 策略:损失函数与风险函数
-
损失函数:衡量单个样本预测值与真实值的差距,记为 L(y,f(x))L(y,f(\boldsymbol{x}))L(y,f(x))。常用损失函数:
-
0-1损失(分类):L(y,f(x))={1,y≠f(x)0,y=f(x)L(y,f(\boldsymbol{x}))=\begin{cases}1, & y\neq f(\boldsymbol{x}) \\ 0, & y=f(\boldsymbol{x})\end{cases}L(y,f(x))={1,0,y=f(x)y=f(x)
-
平方损失(回归):L(y,f(x))=(y−f(x))2L(y,f(\boldsymbol{x}))=(y-f(\boldsymbol{x}))^2L(y,f(x))=(y−f(x))2
-
对数损失(概率模型):L(y,P(y∣x))=−logP(y∣x)L(y,P(y|\boldsymbol{x}))=-\log P(y|\boldsymbol{x})L(y,P(y∣x))=−logP(y∣x)
-
-
风险函数:模型在整个样本空间上的期望损失,即 Rexp(f)=EP[L(y,f(x))]R_{exp}(f)=\mathbb{E}_{P}[L(y,f(\boldsymbol{x}))]Rexp(f)=EP[L(y,f(x))]。
-
经验风险:模型在训练集上的平均损失,即 Remp(f)=1N∑i=1NL(yi,f(xi))R_{emp}(f)=\frac{1}{N}\sum_{i=1}^N L(y_i,f(\boldsymbol{x}_i))Remp(f)=N1i=1∑NL(yi,f(xi))。
-
策略的目标:最小化风险函数,但真实风险无法计算,因此监督学习的策略分为两种:
-
经验风险最小化(ERM):直接最小化经验风险,适用于样本量足够大的场景(如线性回归)。
-
结构风险最小化(SRM):经验风险 + 正则化项,即 Rsrm(f)=Remp(f)+λJ(f)R_{srm}(f)=R_{emp}(f)+\lambda J(f)Rsrm(f)=Remp(f)+λJ(f),用于缓解过拟合。
-
- 算法:求解最优模型的优化方法
算法是求解"最小化风险函数"这个优化问题的具体计算方法。例如:线性回归的算法是最小二乘法(解析解)或梯度下降法(数值解);支持向量机的算法是序列最小最优化(SMO)。
三、 监督学习(核心章节:第2-6章)
监督学习是西瓜书的重点,涵盖线性模型、决策树、支持向量机、贝叶斯分类器、集成学习等。
- 线性模型(第3章)
(1)线性回归
-
模型:y=wTx+by = \boldsymbol{w}^T\boldsymbol{x}+by=wTx+b
-
策略:经验风险最小化(平方损失)
-
算法:最小二乘法求解析解 w^=(XTX)−1XTy\hat{\boldsymbol{w}}=(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}w^=(XTX)−1XTy;当 XTX\boldsymbol{X}^T\boldsymbol{X}XTX 不可逆时,用梯度下降法。
(2)对数几率回归(逻辑回归)
-
任务:二分类
-
模型:y=σ(wTx+b)y=\sigma(\boldsymbol{w}^T\boldsymbol{x}+b)y=σ(wTx+b),其中 σ(⋅)\sigma(\cdot)σ(⋅) 是sigmoid函数(σ(z)=11+e−z\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1),输出为样本属于正类的概率。
-
策略:极大似然估计(等价于最小化对数损失)
-
算法:梯度下降法、牛顿法。
(3)线性判别分析(LDA)
-
核心思想:投影后,同类样本的投影点尽可能近,异类样本的投影点尽可能远。
-
数学目标:最大化类间散度矩阵与类内散度矩阵的比值,即 J(w)=wTSbwwTSwwJ(\boldsymbol{w})=\frac{\boldsymbol{w}^T\boldsymbol{S}_b\boldsymbol{w}}{\boldsymbol{w}^T\boldsymbol{S}_w\boldsymbol{w}}J(w)=wTSwwwTSbw,其中 Sb\boldsymbol{S}_bSb 为类间散度矩阵,Sw\boldsymbol{S}_wSw 为类内散度矩阵。
- 决策树(第4章)
-
核心思想:递归划分特征空间,每个叶节点对应一个类别。
-
划分准则
-
ID3:最大化信息增益,公式为 Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{|D^v|}{|D|}Ent(D^v)Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv),其中 Ent(D)Ent(D)Ent(D) 为数据集D的熵(Ent(D)=−∑k=1Kpklog2pkEnt(D)=-\sum_{k=1}^K p_k\log_2 p_kEnt(D)=−k=1∑Kpklog2pk),倾向于选择取值多的特征。
-
C4.5:最大化信息增益率,公式为 Gain_ratio(D,a)=Gain(D,a)IV(a)Gain\ratio(D,a)=\frac{Gain(D,a)}{IV(a)}Gain_ratio(D,a)=IV(a)Gain(D,a),其中 IV(a)IV(a)IV(a) 为特征a的固有值(IV(a)=−∑v=1V∣Dv∣∣D∣log2∣Dv∣∣D∣IV(a)=-\sum{v=1}^V \frac{|D^v|}{|D|}\log_2 \frac{|D^v|}{|D|}IV(a)=−v=1∑V∣D∣∣Dv∣log2∣D∣∣Dv∣),克服ID3的偏好。
-
CART:回归树用平方误差最小化(minv[minc1∑xi∈D1(v)(yi−c1)2+minc2∑xi∈D2(v)(yi−c2)2]\min_{v}\left[\min_{c_1}\sum_{x_i\in D_1(v)}(y_i-c_1)^2 + \min_{c_2}\sum_{x_i\in D_2(v)}(y_i-c_2)^2\right]vmin c1minxi∈D1(v)∑(yi−c1)2+c2minxi∈D2(v)∑(yi−c2)2 ),分类树用基尼指数最小化(Gini(D)=1−∑k=1Kpk2Gini(D)=1-\sum_{k=1}^K p_k^2Gini(D)=1−k=1∑Kpk2)。
-
-
剪枝:解决过拟合,分为预剪枝(训练中提前停止划分)和后剪枝(生成完整树后剪去分支)。
- 支持向量机(SVM)(第6章)
(1)线性可分SVM
-
核心:寻找最大间隔超平面,满足约束条件 {wTx+b≥1,y=1wTx+b≤−1,y=−1\begin{cases}\boldsymbol{w}^T\boldsymbol{x}+b\ge 1, & y=1 \\ \boldsymbol{w}^T\boldsymbol{x}+b\le -1, & y=-1\end{cases}{wTx+b≥1,wTx+b≤−1,y=1y=−1。
-
优化目标:minw,b12∥w∥2\min_{\boldsymbol{w},b}\frac{1}{2}\|\boldsymbol{w}\|^2w,bmin21∥w∥2,约束为 yi(wTxi+b)≥1y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)\ge 1yi(wTxi+b)≥1(i=1,2,...,Ni=1,2,...,Ni=1,2,...,N)。
-
算法:拉格朗日对偶,将原问题转化为对偶问题求解,支持向量是满足 yi(wTxi+b)=1y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)=1yi(wTxi+b)=1 的样本。
(2)线性不可分SVM
引入松弛变量 ξi≥0\xi_i \ge 0ξi≥0,允许部分样本不满足间隔约束,优化目标变为 minw,b,ξi12∥w∥2+C∑i=1Nξi\min_{\boldsymbol{w},b,\xi_i}\frac{1}{2}\|\boldsymbol{w}\|^2 + C\sum_{i=1}^N\xi_iw,b,ξimin21∥w∥2+Ci=1∑Nξi,约束为 yi(wTxi+b)≥1−ξiy_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)\ge 1-\xi_iyi(wTxi+b)≥1−ξi(i=1,2,...,Ni=1,2,...,Ni=1,2,...,N),其中 CCC 是惩罚系数(CCC 越大,对误分类样本惩罚越重)。
(3)非线性SVM
-
核心:引入核函数 k(xi,xj)=ϕ(xi)Tϕ(xj)k(\boldsymbol{x}_i,\boldsymbol{x}_j)=\phi(\boldsymbol{x}_i)^T\phi(\boldsymbol{x}_j)k(xi,xj)=ϕ(xi)Tϕ(xj),将低维线性不可分数据映射到高维线性可分空间,无需显式计算映射函数 ϕ(⋅)\phi(\cdot)ϕ(⋅)。
-
常用核函数:
-
线性核:k(xi,xj)=xiTxjk(\boldsymbol{x}_i,\boldsymbol{x}_j)=\boldsymbol{x}_i^T\boldsymbol{x}_jk(xi,xj)=xiTxj
-
多项式核:k(xi,xj)=(γxiTxj+r)dk(\boldsymbol{x}_i,\boldsymbol{x}_j)=(\gamma\boldsymbol{x}_i^T\boldsymbol{x}_j + r)^dk(xi,xj)=(γxiTxj+r)d(γ,r,d\gamma,r,dγ,r,d 为超参数)
-
高斯核(RBF核):k(xi,xj)=exp(−γ∥xi−xj∥2)k(\boldsymbol{x}_i,\boldsymbol{x}_j)=\exp(-\gamma\|\boldsymbol{x}_i-\boldsymbol{x}_j\|^2)k(xi,xj)=exp(−γ∥xi−xj∥2)(γ>0\gamma>0γ>0 为超参数)
-
-
算法:序列最小最优化(SMO),将大优化问题分解为多个两个变量的小优化问题,降低计算复杂度。
- 贝叶斯分类器(第7章)
(1)贝叶斯定理
核心公式:P(c∣x)=P(x∣c)P(c)P(x)P(c|\boldsymbol{x})=\frac{P(\boldsymbol{x}|c)P(c)}{P(\boldsymbol{x})}P(c∣x)=P(x)P(x∣c)P(c),其中 P(c)P(c)P(c) 为先验概率,P(x∣c)P(\boldsymbol{x}|c)P(x∣c) 为类条件概率,P(c∣x)P(c|\boldsymbol{x})P(c∣x) 为后验概率。
(2)朴素贝叶斯
-
假设:属性条件独立性,即 P(x∣c)=∏i=1dP(xi∣c)P(\boldsymbol{x}|c)=\prod_{i=1}^d P(x_i|c)P(x∣c)=i=1∏dP(xi∣c)(d为特征维度)。
-
策略:极大后验概率(MAP),分类时取 argmaxcP(c∣x)\arg\max_c P(c|\boldsymbol{x})argcmaxP(c∣x)。
-
平滑技术:拉普拉斯平滑,解决零概率问题,公式为 P(xi∣c)=∣Dc,xi∣+1∣Dc∣+NiP(x_i|c)=\frac{|D_{c,x_i}|+1}{|D_c|+N_i}P(xi∣c)=∣Dc∣+Ni∣Dc,xi∣+1,其中 ∣Dc∣|D_c|∣Dc∣ 为类别c的样本数,∣Dc,xi∣|D_{c,x_i}|∣Dc,xi∣ 为类别c中特征xix_ixi的样本数,NiN_iNi 为特征xix_ixi的取值数。
(3)半朴素贝叶斯
放松属性独立性假设,如独依赖估计(ODE),假设每个属性仅依赖一个父属性,平衡模型复杂度和预测性能。
- 集成学习(第8章)
-
核心思想:组合多个弱学习器(性能略优于随机猜测的模型),形成强学习器,提升泛化能力。
-
Boosting
-
策略:串行生成弱学习器,每个弱学习器关注前一个模型的错误样本,通过调整样本权重(错误样本权重升高,正确样本权重降低)训练,最终加权组合弱学习器。
-
代表算法:AdaBoost,弱学习器权重由误差率决定(误差率越低,权重越高),最终预测结果为各弱学习器预测结果的加权投票。
-
进阶:梯度提升决策树(GBDT),基于残差学习,每一步训练一个决策树拟合前一步模型的预测残差(真实值-预测值),逐步降低损失。
-
-
Bagging
-
策略:并行生成弱学习器,通过自助采样(Bootstrap,有放回采样)生成不同的训练集,每个弱学习器独立训练,最终通过投票(分类)或平均(回归)得到结果。
-
代表算法:随机森林(RF),在Bagging基础上,决策树训练时随机选择部分特征进行划分,进一步降低模型方差,提升泛化能力。
-
-
模型融合:Stacking,将多个弱学习器的输出作为新特征,训练一个元学习器(如逻辑回归、SVM)做最终预测,融合效果更优但计算复杂度更高。
四、 无监督学习(第9章)
- 聚类
-
基本概念:簇是样本的子集,满足簇内相似度高,簇间相似度低,核心是定义合适的距离/相似度度量。
-
距离度量:闵可夫斯基距离 distmk(xi,xj)=(∑u=1n∣xiu−xju∣p)1pdist_{mk}(\boldsymbol{x}i,\boldsymbol{x}j)=\left(\sum{u=1}^n |x{iu}-x_{ju}|^p\right)^{\frac{1}{p}}distmk(xi,xj)=(u=1∑n∣xiu−xju∣p)p1,其中p=1为曼哈顿距离,p=2为欧氏距离,p→∞为切比雪夫距离。
-
代表算法:
-
K-Means:划分式聚类,目标是最小化簇内平方和(min∑k=1K∑x∈Ck∥x−μk∥2\min\sum_{k=1}^K\sum_{\boldsymbol{x}\in C_k}\|\boldsymbol{x}-\boldsymbol{\mu}_k\|^2mink=1∑Kx∈Ck∑∥x−μk∥2,μk\boldsymbol{\mu}_kμk 为第k个簇的质心),需预先指定k值,对初始质心敏感,常用K-Means++优化初始质心选择。
-
DBSCAN:密度聚类,基于核心对象、密度直达、密度可达定义簇(核心对象:邻域内样本数≥最小密度阈值;密度直达:核心对象与邻域内样本;密度可达:通过核心对象链连接),能发现任意形状的簇,无需指定k值,对噪声鲁棒。
-
层次聚类:分为凝聚式(自底向上,从单个样本开始合并相似簇)和分裂式(自顶向下,从全样本开始拆分簇),最终形成聚类树,可根据需求选择簇数。
-
- 降维与度量学习
-
主成分分析(PCA):线性降维,通过正交变换将特征映射到低维空间,保留方差最大的方向。目标是最大化投影方差(maxw1m∑i=1m(wTxi−wTxˉ)2\max_{\boldsymbol{w}}\frac{1}{m}\sum_{i=1}^m (\boldsymbol{w}^T\boldsymbol{x}_i-\boldsymbol{w}^T\bar{\boldsymbol{x}})^2wmaxm1i=1∑m(wTxi−wTxˉ)2,xˉ\bar{\boldsymbol{x}}xˉ 为样本均值),本质是求解协方差矩阵的特征值和特征向量,取前k个最大特征值对应的特征向量作为投影矩阵。
-
核PCA:非线性降维,用核函数将数据映射到高维特征空间,再在高维空间做PCA,适用于非线性数据。
-
流形学习:假设数据分布在低维流形上,通过保持样本局部邻域关系实现降维(如Isomap保持测地线距离,LLE保持局部线性关系),适用于非线性数据降维和可视化。
五、 进阶内容(第10-16章)
-
特征选择与稀疏学习:特征选择分为过滤式(如相关系数、方差筛选)、包裹式(如递归特征消除)、嵌入式(如L1正则);稀疏学习通过L1正则得到稀疏解(如Lasso回归),实现特征选择与模型训练一体化。
-
计算学习理论:研究机器学习的理论边界,如PAC学习(大概率近似正确),样本复杂度(训练模型所需最少样本数)、计算复杂度(训练模型所需计算资源),为模型选择和性能上限提供理论支撑。
-
半监督学习:利用未标记数据提升模型性能,分为生成式方法(假设数据服从某种生成模型,用未标记数据估计模型参数)、半监督SVM(通过间隔最大化利用未标记数据)、图半监督学习(将样本构建为图,利用图的平滑性传播标签)。
-
强化学习:核心是马尔可夫决策过程(MDP),包括状态S、动作A、奖励R、策略π、价值函数V;代表算法:动态规划(基于模型的规划方法)、蒙特卡洛方法(无模型,基于采样平均)、时序差分学习(结合动态规划和蒙特卡洛,在线学习)。
-
概率图模型:用图结构表示变量间的概率依赖关系,分为贝叶斯网络(有向图,如朴素贝叶斯、隐马尔可夫模型HMM)和马尔可夫随机场(无向图,如条件随机场CRF),适用于不确定性推理和序列建模。
六、 关键补充(西瓜书强调的重难点)
- 过拟合与欠拟合
(1)过拟合(Overfitting)
西瓜书定义为:模型在训练集上误差极小、拟合效果优异,但在未见过的测试集上误差显著上升,泛化能力极差的现象。这是机器学习训练中最常见且需重点规避的问题。
核心原因:本质是模型复杂度超过数据本身的真实复杂度,模型不仅学习到了数据中的普遍规律,还将训练数据中的噪声、随机波动等非本质特征纳入学习范围,导致模型"死记硬背"训练数据,无法迁移到新样本。例如用10次多项式拟合仅含20个样本的线性数据,曲线会穿过所有训练点,但对新样本预测偏差极大。此外,训练样本量过少、样本分布不均衡也会加剧过拟合。
西瓜书核心解决方法:
-
正则化:在损失函数中加入模型复杂度惩罚项,限制参数规模,避免参数过度拟合噪声。分为L1正则(Lreg=Lemp+λ∑i=1d∣wi∣L_{reg}=L_{emp}+\lambda\sum_{i=1}^d|w_i|Lreg=Lemp+λi=1∑d∣wi∣)和L2正则(Lreg=Lemp+λ∑i=1dwi2L_{reg}=L_{emp}+\lambda\sum_{i=1}^d w_i^2Lreg=Lemp+λi=1∑dwi2),L1可使部分参数归零实现特征选择,L2使参数趋近于0,均能降低模型复杂度。
-
剪枝:针对决策树模型,分为预剪枝(训练中提前停止分支划分,如设定最小样本数阈值)和后剪枝(生成完整决策树后,移除泛化能力差的分支),本质是删减冗余决策节点,简化模型结构。
-
增大数据量:通过数据扩充(如图像旋转、文本同义词替换)或采集更多真实样本,让模型接触更全面的规律,减少噪声对模型的影响,这是最根本的解决方法之一。
-
早停:在模型训练过程中,实时监控验证集误差,当验证集误差连续多轮上升时,立即停止训练,避免模型在训练后期过度拟合训练数据。
(2)欠拟合(Underfitting)
西瓜书定义为:模型在训练集和测试集上的误差都较大,无法捕捉数据中的基本规律,拟合效果差的现象。
核心原因:模型复杂度低于数据真实复杂度,无法刻画数据中的非线性、高阶关联等特征。例如用线性模型拟合非线性数据(如房价与面积的二次关系),模型无法捕捉核心规律,导致训练和测试效果均不佳。此外,特征工程不足(如遗漏关键特征)也会引发欠拟合。
西瓜书核心解决方法:
-
增加模型复杂度:针对线性模型,可引入多项式特征(如x2、xyx^2、xyx2、xy)转化为非线性模型;针对树模型,可增加树的深度、叶子节点数;也可替换为更复杂的模型(如用GBDT替代单一决策树)。
-
强化特征工程:挖掘更多关键特征(如从用户行为数据中提取"活跃度"特征)、对特征进行非线性变换(如对数变换、归一化)、组合特征(如"年龄+职业"组合特征),为模型提供更丰富的信息,帮助模型捕捉规律。
-
模型评估与选择
(1)评估方法(数据集划分策略)
核心目标是通过合理划分数据集,客观评估模型泛化能力,避免因数据集划分不当导致的评估偏差。
- 留出法(Hold-out):
-
原理:将数据集按比例(常用7:3或8:2)划分为互斥的训练集(用于模型训练)和测试集(用于评估泛化能力),单次划分后训练并评估模型。
-
西瓜书强调要点:划分时需保持数据分布一致性(如分类任务中正负样本比例与原数据集一致),避免因分布偏移导致评估失真;缺点是评估结果受划分方式影响大,稳定性差,可通过多次随机划分取平均值优化。
- 交叉验证法(Cross Validation):
-
原理:将数据集随机划分为k个大小相近的互斥子集,每次用k-1个子集作为训练集,剩余1个子集作为测试集,重复k次(每次轮换测试集),最终取k次评估结果的平均值作为模型性能指标,即k折交叉验证。
-
西瓜书强调要点:k值常用5或10,兼顾评估稳定性和计算成本;极端情况为留一交叉验证(LOOCV),k等于样本数,评估结果最稳定但计算量极大,适用于样本量极少的场景;交叉验证能充分利用数据,评估结果更可靠,是工业界和科研中最常用的方法。
- 自助法(Bootstrap):
-
原理:基于自助采样(有放回采样),从含m个样本的数据集D中,随机采样m次得到训练集D'(部分样本重复,部分样本未被选中),未被选中的样本(约36.8%)作为测试集,重复该过程多次,取评估结果平均值。
-
西瓜书强调要点:适用于样本量极小、难以划分训练/测试集的场景;优点是能充分利用数据,缺点是改变了原数据集的分布,可能导致评估结果有偏差,对分类任务影响较小,对回归任务适用性较弱。
(2)性能度量(模型效果量化指标)
根据任务类型(分类/回归)选择对应指标,客观反映模型预测能力。
① 分类任务指标(针对离散标签预测)
-
准确率(Accuracy):Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac{TP+TN}{TP+TN+FP+FN}Accuracy=TP+TN+FP+FNTP+TN,预测正确的样本数占总样本数的比例,适用于正负样本均衡的场景;缺点是对不均衡数据敏感(如负样本占90%,模型全预测为负也能达到90%准确率)。
-
精确率(Precision)与召回率(Recall):精确率P=TPTP+FPP = \frac{TP}{TP+FP}P=TP+FPTP,预测为正类的样本中真实为正类的比例(避免误判正类);召回率R=TPTP+FNR = \frac{TP}{TP+FN}R=TP+FNTP,真实为正类的样本中被正确预测的比例(避免漏判正类)。二者存在trade-off,需根据场景取舍(如垃圾邮件识别优先精确率,疾病诊断优先召回率)。
-
F1分数:F1=2×P×RP+RF1 = 2\times\frac{P\times R}{P+R}F1=2×P+RP×R,精确率和召回率的调和平均数,综合二者性能,避免单一指标的局限性。
-
ROC曲线与AUC值:ROC曲线以假正例率(FPR=FPTN+FP\frac{FP}{TN+FP}TN+FPFP)为横轴、真正例率(TPR=TPTP+FN\frac{TP}{TP+FN}TP+FNTP)为纵轴,反映模型在不同阈值下的分类性能;AUC是ROC曲线下的面积,取值范围[0.5,1],AUC越接近1,模型分类能力越强,适用于二分类和多分类任务,对不均衡数据不敏感。
② 回归任务指标(针对连续标签预测)
-
均方误差(MSE):MSE=1m∑i=1m(yi−y^i)2MSE = \frac{1}{m}\sum_{i=1}^m (y_i - \hat{y}_i)^2MSE=m1i=1∑m(yi−y^i)2,预测值与真实值差值的平方和均值,对异常值敏感(异常值平方后放大影响)。
-
平均绝对误差(MAE):MAE=1m∑i=1m∣yi−y^i∣MAE = \frac{1}{m}\sum_{i=1}^m |y_i - \hat{y}_i|MAE=m1i=1∑m∣yi−y^i∣,预测值与真实值绝对差值的均值,对异常值鲁棒性更强,反映误差的平均水平。
-
决定系数(R2R^2R2):R2=1−∑i=1m(yi−y^i)2∑i=1m(yi−yˉ)2R^2 = 1 - \frac{\sum_{i=1}^m (y_i - \hat{y}i)^2}{\sum{i=1}^m (y_i - \bar{y})^2}R2=1−∑i=1m(yi−yˉ)2∑i=1m(yi−y^i)2,其中yˉ\bar{y}yˉ为真实值的均值,反映模型对数据变异的解释能力,取值范围(-∞,1],R2R^2R2越接近1,模型拟合效果越好。