机器学习题目复习

西瓜书期末考点精准背诵版（完全匹配老师划定范围）

一、梯度计算（计算类考点）

1. 梯度是什么

对损失函数L(w)L(\boldsymbol w)L(w)，梯度∇L\nabla L∇L是参数空间上升最快的方向 ；梯度下降取−∇L-\nabla L−∇L，沿损失减小方向更新参数：

w=w−η∇L\boldsymbol w = \boldsymbol w - \eta \nabla Lw=w−η∇L

η\etaη：学习率。

2. 常见梯度必考计算

线性回归均方损失 L=12∥y−Xw∥22L=\frac12\|\boldsymbol y-X\boldsymbol w\|_2^2L=21∥y−Xw∥22
∇L=XT(Xw−y)\nabla L = X^T(X\boldsymbol w - \boldsymbol y)∇L=XT(Xw−y)
L2正则损失 L=12∥y−Xw∥22+λ2∥w∥22L=\frac12\|\boldsymbol y-X\boldsymbol w\|_2^2+\frac\lambda2\|\boldsymbol w\|_2^2L=21∥y−Xw∥22+2λ∥w∥22
∇L=XT(Xw−y)+λw\nabla L = X^T(X\boldsymbol w-\boldsymbol y)+\lambda \boldsymbol w∇L=XT(Xw−y)+λw
逻辑回归交叉熵损失：梯度形式和线性回归结构一致，仅预测值换成sigmoid输出。

3. 考点问答

梯度为0：到达极值点（凸函数全局最优，神经网络/非凸仅局部最优）
梯度消失：深层网络梯度趋近0，参数几乎不更新，模型不收敛。

二、偏差、方差、噪声 & 三者与模型性能的关系

泛化误差分解公式：

泛化误差=偏差2+方差+噪声\text{泛化误差} = \text{偏差}^2 + \text{方差} + \text{噪声}泛化误差=偏差2+方差+噪声

偏差
模型本身拟合能力不足带来的误差，反映模型期望预测和真实函数的差距。

模型简单 → 高偏差 → 欠拟合（训练、测试误差都高）

方差
相同规模不同训练集训练出模型的预测波动，对训练集噪声敏感。

模型复杂 → 高方差 → 过拟合（训练误差极低，测试误差很高）

噪声
数据本身固有误差，无法通过优化模型消除，是误差下界。

变化规律（必背简答）

模型复杂度上升：偏差持续下降，方差持续上升；

最优复杂度平衡偏差与方差，泛化误差最小。

Bagging（随机森林）：降低方差，缓解过拟合
Boosting：持续降低偏差，擅长解决欠拟合

三、信息增益（概念+使用含义，决策树核心）

1. 信息熵Ent(D)Ent(D)Ent(D)

衡量数据集纯度，熵越大，样本类别越混乱。

Ent(D)=−∑k=1∣Y∣pklog⁡2pkEnt(D)=-\sum_{k=1}^{|\mathcal Y|}p_k\log_2 p_kEnt(D)=−k=1∑∣Y∣pklog2pk

pkp_kpk：数据集D中第k类样本占比。

2. 信息增益定义

Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{|D_v|}{|D|}Ent(D_v)Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)

Ent(D)Ent(D)Ent(D)：划分前整体混乱度
求和项：用特征aaa划分后，各子集加权平均混乱度

3. 使用时代表什么（考试必背）

信息增益 = 使用特征a划分数据集后，整体混乱度下降的幅度 。

ID3算法规则：选择信息增益最大的特征作为当前划分节点，一次性最大程度降低样本混乱、提升纯度。

4. 缺陷

天然偏好取值多的特征（如样本编号），这类特征划分后熵直接趋近0，增益极大但泛化差；C4.5用信息增益比做惩罚修正。

四、支持向量机SVM

1. 什么是SVM

二分类判别模型，核心目标：在样本空间寻找几何间隔最大的分离超平面，最大化两类样本距离分界线的最小距离，以此获得最优泛化能力。

2. SVM有什么是确定不变的

优化目标是凸二次规划，不存在局部最优，一定能求出全局最优解（区别于神经网络）；
最终决策边界仅由支持向量决定，非支持向量增减不改变超平面；
间隔最大化是核心准则；
线性不可分场景统一依靠核函数映射高维解决。

3. 线性不可分如何处理

引入核技巧 ：通过核函数K(xi,xj)K(x_i,x_j)K(xi,xj)隐式将低维样本映射到高维特征空间，让样本在高维线性可分，无需显式计算高维向量。

常用核：线性核、多项式核、高斯RBF核（最通用）。

补充软间隔：引入松弛变量ξi\xi_iξi，允许少量样本越过间隔边界，惩罚系数CCC控制对错分的容忍度。

五、核函数（老师括号标注考点）

1. 定义

对映射ϕ:X→H\phi: \mathcal X \to \mathcal Hϕ:X→H（低维→高维希尔伯特空间），核函数满足：

K(xi,xj)=ϕ(xi)Tϕ(xj)K(x_i,x_j)=\phi(x_i)^T \phi(x_j)K(xi,xj)=ϕ(xi)Tϕ(xj)

直接计算低维内积等价于高维特征内积，规避高维维度爆炸，降低计算量。

2. 判定条件

对称半正定函数才是合法核函数（Mercer定理）。

六、拉普拉斯平滑（朴素贝叶斯必考）

1. 解决什么问题

原始频率统计中，若某特征取值在训练集中从未出现，条件概率P(xj∣c)=0P(x_j|c)=0P(xj∣c)=0，整条样本后验直接归零，无法正常分类（零概率问题）。

2. 怎么做（离散特征公式）

P(xj∣c)=Nc,j+1Nc+NjP(x_j|c)=\frac{N_{c,j}+1}{N_c + N_j}P(xj∣c)=Nc+NjNc,j+1

Nc,jN_{c,j}Nc,j：类别c下特征j取该值样本数
NcN_cNc：类别c总样本
NjN_jNj：特征j全部取值种类数
分子+1、分母+取值总数，给所有特征分配极小平滑概率，杜绝0概率。

3. 本质

给先验加入均匀先验假设，等价贝叶斯估计，小样本稳定性大幅提升。

七、没有免费午餐定理 NFL（配套平滑一起理解）

核心内容

所有学习算法在全部潜在数据分布上的平均泛化误差完全相等，不存在绝对万能最优算法。

现实意义

脱离任务数据分布，无法判定算法好坏；
算法有效，是因为其归纳偏好刚好匹配当前数据集；
拉普拉斯平滑、奥卡姆剃刀都是人为引入合理归纳偏好，适配真实数据。

八、过拟合 & 欠拟合（定义+现象+解决）

1. 欠拟合

定义：模型学习能力不足，未捕捉数据底层规律。

现象：训练误差高、测试误差高。

成因：模型过于简单、特征过少、训练轮次不足。

解决：增加特征、提升模型复杂度、减少正则、延长训练。

2. 过拟合

定义：模型记住训练集噪声、特例，而非通用规律。

现象：训练误差极低，测试误差远高于训练误差。

成因：模型复杂、训练样本少、噪声多、训练轮次过多。

解决：扩充数据集、正则化（L1/L2）、早停、决策树剪枝、Dropout、数据增强。

九、监督学习 vs 无监督学习（算法、任务、场景全覆盖）

1. 监督学习

定义：数据集包含输入xxx+对应标记yyy，学习x→yx\to yx→y映射。

细分任务+代表算法+应用场景

分类（yyy离散）
逻辑回归、决策树、SVM、朴素贝叶斯、随机森林、BP神经网络
场景：垃圾邮件识别、图像猫狗分类、疾病诊断
回归（yyy连续）
线性回归、岭回归、Lasso、GBDT回归
场景：房价预测、销量预估、温度预测

2. 无监督学习

定义：只有样本xxx，无任何标记yyy，挖掘数据内在结构。

细分任务+代表算法+应用场景

聚类
K-Means、层次聚类、DBSCAN
场景：用户分群、商品聚类、异常检测
降维
PCA、LDA（无监督版PCA）
场景：数据可视化、高维特征压缩、去除冗余特征
关联规则挖掘
场景：购物篮分析

补充半监督：少量标记+大量无标记；强化学习MDP单独一节。

十、决策树考点：剪枝 + 连续值处理

1. 剪枝（缓解过拟合两大方法）

预剪枝
建树过程中提前停止划分：划分后验证集精度不提升则停止分支。
优点：训练速度快；缺点：容易欠拟合。
后剪枝
完整生成整棵决策树后，自底向上遍历分支，删除子树替换为叶节点，验证集精度不下降就执行剪枝。
优点：泛化能力更强；缺点：计算量大。

2. 连续特征处理

连续值不能直接划分，离散化处理：

将特征所有取值从小到大排序；
取相邻两个值中点作为候选分割点；
对每个分割点二分数据集，计算信息增益/基尼指数；
选择最优分割点完成二分，连续特征转为二元离散分支。

十一、特征选择 + 维度灾难（降维配套考点）

1. 特征选择（筛选有效特征，去除冗余噪声特征）

三类方法：

过滤式：独立于模型，方差、相关系数、互信息，速度快；
包裹式：用模型效果评判特征（RFE递归特征消除），效果好、计算慢；
嵌入式：训练模型同步做特征筛选（Lasso产生稀疏权重，自动置无效特征为0）。
作用：减少冗余、加速训练、缓解维度灾难、降低过拟合。

2. 维度灾难

定义：特征维度极高时，同等数量样本在高维空间极度稀疏，样本之间距离几乎无差别，距离度量失效、模型泛化急剧变差。

解决手段：特征选择、降维（PCA）。

十二、聚类 vs K近邻KNN（区别+K的含义）

1. KNN（监督分类/回归算法）

任务：监督学习，有标签；
核心：预测单个样本时，找距离最近KKK个训练样本，投票（分类）/平均（回归）输出结果；
KKK含义：参考近邻样本的数量；
K过小：受噪声干扰，过拟合；K过大：类别被稀释，欠拟合。
缺点：惰性学习，预测速度慢，高维受维度灾难影响大。

2. K-Means（无监督聚类算法）

任务：无监督，无标签；
核心：把全部无标记样本划分为KKK个簇，簇内距离近、簇间距离远；
KKK含义：预先设定的聚类簇总数；
K太小：多个真实类别合并；K太大：类别过度拆分；常用肘部法则选K。

核心区别总结

有无标签：KNN监督，K-Means无监督；
目标：KNN做预测，K-Means分组；
运行方式：KNN无需训练，预测才计算；K-Means离线训练得到聚类中心。

十三、训练集 / 验证集 / 测试集（划分作用、规模、合理性）

1. 三套集合各自用途

训练集（占比最大，70%~80%）
作用：拟合模型，更新参数、学习数据规律。
验证集（10%~15%）
作用：模型选择、超参数调优、早停、决策树剪枝；不参与参数更新。
测试集（10%~15%）
作用：仅最后使用一次，评估模型真实泛化能力；全程不能参与训练与调参，否则评估结果虚高。

2. 划分是否合理判断标准

分层采样：三类集合类别分布和原始全集一致（数据不平衡任务尤其重要）；
测试集仅最后一次性使用，不用来调参；
训练集样本最多，保证充分学习；
不使用测试集任何信息参与模型构建，避免数据泄露。

错误划分案例

把测试集用来调学习率、选K、剪枝 → 评估结果乐观，上线真实效果暴跌。

十四、模型评估方法 & 不平衡数据处理（地震样本不平衡例子）

1. 模型性能评估方法

划分策略：留出法、k折交叉验证、自助法bootstrap；
分类任务指标：
基础：错误率、精度；
不平衡数据核心：查准率P、召回率R、F1；P-R曲线、ROC、AUC；
回归任务：MSE、MAE。

2. 数据分布不平衡（地震预测案例：地震样本极少，普通地层样本极多）

问题：模型无脑预测多数类，精度极高但完全无法识别少数关键样本（地震漏判）。

解决方法

数据层面

过采样：复制少数类样本（地震样本）；
欠采样：删减多数类普通样本；
合成采样SMOTE：生成新少数样本。

模型损失层面

类别加权损失：给少数类设置更大损失惩罚；
使用F1、AUC替代精度作为评价指标（不依赖样本数量均衡）；

算法层面：调整分类阈值，降低少数类漏判。

十五、MDP 马尔可夫决策过程（强化学习基础）

五元组定义MDP=⟨S,A,P,R,γ⟩MDP=\langle S,A,P,R,\gamma \rangleMDP=⟨S,A,P,R,γ⟩

SSS：状态集合（环境当前情况）
AAA：动作集合（智能体可执行操作）
PPP：状态转移概率P(s′∣s,a)P(s'|s,a)P(s′∣s,a)：当前状态sss执行动作aaa后跳转到s′s's′的概率
RRR：即时奖励函数R(s,a,s′)R(s,a,s')R(s,a,s′)，动作后获得反馈
γ∈ $0,1$ \gamma\in $0,1$ γ∈ $0,1$ ：折扣因子，弱化远期奖励权重

核心性质：马尔可夫性

下一状态仅由当前状态、动作决定，和历史所有状态无关。

目标

寻找最优策略π(a∣s)\pi(a|s)π(a∣s)：给定状态sss选动作aaa，最大化长期累积折扣奖励，是强化学习全部算法（Q-learning等）的基础框架。

考前极简背诵清单（直接背简答）

梯度下降沿负梯度更新，梯度0为极值；
复杂模型高方差过拟合，简单模型高偏差欠拟合；
信息增益=划分后混乱度减少量，ID3选最大增益特征；
SVM最大化间隔，仅支持向量决定边界，核函数解决线性不可分；
拉普拉斯平滑消除零概率；NFL说明无万能算法；
监督有标签（分类/回归），无监督无标签（聚类/降维）；
预剪枝训练快易欠拟合，后剪枝泛化更好；连续特征取中点分割；
特征选择去冗余，高维样本稀疏引发维度灾难；
KNN监督预测，K-Means无监督聚类，两者K含义完全不同；
训练集训模型、验证集调参、测试集最终评估；
不平衡数据用过/欠采样、加权损失、F1/AUC评价；
MDP五元组，马尔可夫性，强化学习基础。