机器学习题目复习

西瓜书期末考点精准背诵版(完全匹配老师划定范围)

一、梯度计算(计算类考点)

1. 梯度是什么

对损失函数L(w)L(\boldsymbol w)L(w),梯度∇L\nabla L∇L是参数空间上升最快的方向 ;梯度下降取−∇L-\nabla L−∇L,沿损失减小方向更新参数:

w=w−η∇L\boldsymbol w = \boldsymbol w - \eta \nabla Lw=w−η∇L

η\etaη:学习率。

2. 常见梯度必考计算

  1. 线性回归均方损失 L=12∥y−Xw∥22L=\frac12\|\boldsymbol y-X\boldsymbol w\|_2^2L=21∥y−Xw∥22
    ∇L=XT(Xw−y)\nabla L = X^T(X\boldsymbol w - \boldsymbol y)∇L=XT(Xw−y)
  2. L2正则损失 L=12∥y−Xw∥22+λ2∥w∥22L=\frac12\|\boldsymbol y-X\boldsymbol w\|_2^2+\frac\lambda2\|\boldsymbol w\|_2^2L=21∥y−Xw∥22+2λ∥w∥22
    ∇L=XT(Xw−y)+λw\nabla L = X^T(X\boldsymbol w-\boldsymbol y)+\lambda \boldsymbol w∇L=XT(Xw−y)+λw
  3. 逻辑回归交叉熵损失:梯度形式和线性回归结构一致,仅预测值换成sigmoid输出。

3. 考点问答

  • 梯度为0:到达极值点(凸函数全局最优,神经网络/非凸仅局部最优)
  • 梯度消失:深层网络梯度趋近0,参数几乎不更新,模型不收敛。

二、偏差、方差、噪声 & 三者与模型性能的关系

泛化误差分解公式:

泛化误差=偏差2+方差+噪声\text{泛化误差} = \text{偏差}^2 + \text{方差} + \text{噪声}泛化误差=偏差2+方差+噪声

  1. 偏差
    模型本身拟合能力不足带来的误差,反映模型期望预测和真实函数的差距。
  • 模型简单 → 高偏差 → 欠拟合(训练、测试误差都高)
  1. 方差
    相同规模不同训练集训练出模型的预测波动,对训练集噪声敏感。
  • 模型复杂 → 高方差 → 过拟合(训练误差极低,测试误差很高)
  1. 噪声
    数据本身固有误差,无法通过优化模型消除,是误差下界。

变化规律(必背简答)

模型复杂度上升:偏差持续下降,方差持续上升;

最优复杂度平衡偏差与方差,泛化误差最小。

  • Bagging(随机森林):降低方差,缓解过拟合
  • Boosting:持续降低偏差,擅长解决欠拟合

三、信息增益(概念+使用含义,决策树核心)

1. 信息熵Ent(D)Ent(D)Ent(D)

衡量数据集纯度,熵越大,样本类别越混乱。

Ent(D)=−∑k=1∣Y∣pklog⁡2pkEnt(D)=-\sum_{k=1}^{|\mathcal Y|}p_k\log_2 p_kEnt(D)=−k=1∑∣Y∣pklog2pk

pkp_kpk:数据集D中第k类样本占比。

2. 信息增益定义

Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{|D_v|}{|D|}Ent(D_v)Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)

  • Ent(D)Ent(D)Ent(D):划分前整体混乱度
  • 求和项:用特征aaa划分后,各子集加权平均混乱度

3. 使用时代表什么(考试必背)

信息增益 = 使用特征a划分数据集后,整体混乱度下降的幅度

ID3算法规则:选择信息增益最大的特征作为当前划分节点,一次性最大程度降低样本混乱、提升纯度。

4. 缺陷

天然偏好取值多的特征(如样本编号),这类特征划分后熵直接趋近0,增益极大但泛化差;C4.5用信息增益比做惩罚修正。


四、支持向量机SVM

1. 什么是SVM

二分类判别模型,核心目标:在样本空间寻找几何间隔最大的分离超平面,最大化两类样本距离分界线的最小距离,以此获得最优泛化能力。

2. SVM有什么是确定不变的

  1. 优化目标是凸二次规划,不存在局部最优,一定能求出全局最优解(区别于神经网络);
  2. 最终决策边界仅由支持向量决定,非支持向量增减不改变超平面;
  3. 间隔最大化是核心准则;
  4. 线性不可分场景统一依靠核函数映射高维解决。

3. 线性不可分如何处理

引入核技巧 :通过核函数K(xi,xj)K(x_i,x_j)K(xi,xj)隐式将低维样本映射到高维特征空间,让样本在高维线性可分,无需显式计算高维向量。

常用核:线性核、多项式核、高斯RBF核(最通用)。

补充软间隔:引入松弛变量ξi\xi_iξi,允许少量样本越过间隔边界,惩罚系数CCC控制对错分的容忍度。

五、核函数(老师括号标注考点)

1. 定义

对映射ϕ:X→H\phi: \mathcal X \to \mathcal Hϕ:X→H(低维→高维希尔伯特空间),核函数满足:

K(xi,xj)=ϕ(xi)Tϕ(xj)K(x_i,x_j)=\phi(x_i)^T \phi(x_j)K(xi,xj)=ϕ(xi)Tϕ(xj)

直接计算低维内积等价于高维特征内积,规避高维维度爆炸,降低计算量。

2. 判定条件

对称半正定函数才是合法核函数(Mercer定理)。


六、拉普拉斯平滑(朴素贝叶斯必考)

1. 解决什么问题

原始频率统计中,若某特征取值在训练集中从未出现,条件概率P(xj∣c)=0P(x_j|c)=0P(xj∣c)=0,整条样本后验直接归零,无法正常分类(零概率问题)。

2. 怎么做(离散特征公式)

P(xj∣c)=Nc,j+1Nc+NjP(x_j|c)=\frac{N_{c,j}+1}{N_c + N_j}P(xj∣c)=Nc+NjNc,j+1

  • Nc,jN_{c,j}Nc,j:类别c下特征j取该值样本数
  • NcN_cNc:类别c总样本
  • NjN_jNj:特征j全部取值种类数
    分子+1、分母+取值总数,给所有特征分配极小平滑概率,杜绝0概率。

3. 本质

给先验加入均匀先验假设,等价贝叶斯估计,小样本稳定性大幅提升。

七、没有免费午餐定理 NFL(配套平滑一起理解)

核心内容

所有学习算法在全部潜在数据分布上的平均泛化误差完全相等,不存在绝对万能最优算法。

现实意义

  1. 脱离任务数据分布,无法判定算法好坏;
  2. 算法有效,是因为其归纳偏好刚好匹配当前数据集;
  3. 拉普拉斯平滑、奥卡姆剃刀都是人为引入合理归纳偏好,适配真实数据。

八、过拟合 & 欠拟合(定义+现象+解决)

1. 欠拟合

定义:模型学习能力不足,未捕捉数据底层规律。

现象:训练误差高、测试误差高。

成因:模型过于简单、特征过少、训练轮次不足。

解决:增加特征、提升模型复杂度、减少正则、延长训练。

2. 过拟合

定义:模型记住训练集噪声、特例,而非通用规律。

现象:训练误差极低,测试误差远高于训练误差。

成因:模型复杂、训练样本少、噪声多、训练轮次过多。

解决:扩充数据集、正则化(L1/L2)、早停、决策树剪枝、Dropout、数据增强。


九、监督学习 vs 无监督学习(算法、任务、场景全覆盖)

1. 监督学习

定义:数据集包含输入xxx+对应标记yyy,学习x→yx\to yx→y映射。

细分任务+代表算法+应用场景
  1. 分类(yyy离散)
    逻辑回归、决策树、SVM、朴素贝叶斯、随机森林、BP神经网络
    场景:垃圾邮件识别、图像猫狗分类、疾病诊断
  2. 回归(yyy连续)
    线性回归、岭回归、Lasso、GBDT回归
    场景:房价预测、销量预估、温度预测

2. 无监督学习

定义:只有样本xxx,无任何标记yyy,挖掘数据内在结构。

细分任务+代表算法+应用场景
  1. 聚类
    K-Means、层次聚类、DBSCAN
    场景:用户分群、商品聚类、异常检测
  2. 降维
    PCA、LDA(无监督版PCA)
    场景:数据可视化、高维特征压缩、去除冗余特征
  3. 关联规则挖掘
    场景:购物篮分析

补充半监督:少量标记+大量无标记;强化学习MDP单独一节。


十、决策树考点:剪枝 + 连续值处理

1. 剪枝(缓解过拟合两大方法)

  1. 预剪枝
    建树过程中提前停止划分:划分后验证集精度不提升则停止分支。
    优点:训练速度快;缺点:容易欠拟合。
  2. 后剪枝
    完整生成整棵决策树后,自底向上遍历分支,删除子树替换为叶节点,验证集精度不下降就执行剪枝。
    优点:泛化能力更强;缺点:计算量大。

2. 连续特征处理

连续值不能直接划分,离散化处理:

  1. 将特征所有取值从小到大排序;
  2. 取相邻两个值中点作为候选分割点;
  3. 对每个分割点二分数据集,计算信息增益/基尼指数;
  4. 选择最优分割点完成二分,连续特征转为二元离散分支。

十一、特征选择 + 维度灾难(降维配套考点)

1. 特征选择(筛选有效特征,去除冗余噪声特征)

三类方法:

  1. 过滤式:独立于模型,方差、相关系数、互信息,速度快;
  2. 包裹式:用模型效果评判特征(RFE递归特征消除),效果好、计算慢;
  3. 嵌入式:训练模型同步做特征筛选(Lasso产生稀疏权重,自动置无效特征为0)。
    作用:减少冗余、加速训练、缓解维度灾难、降低过拟合。

2. 维度灾难

定义:特征维度极高时,同等数量样本在高维空间极度稀疏,样本之间距离几乎无差别,距离度量失效、模型泛化急剧变差。

解决手段:特征选择、降维(PCA)


十二、聚类 vs K近邻KNN(区别+K的含义)

1. KNN(监督分类/回归算法)

  • 任务:监督学习,有标签;
  • 核心:预测单个样本时,找距离最近KKK个训练样本,投票(分类)/平均(回归)输出结果;
  • KKK含义:参考近邻样本的数量;
    K过小:受噪声干扰,过拟合;K过大:类别被稀释,欠拟合。
  • 缺点:惰性学习,预测速度慢,高维受维度灾难影响大。

2. K-Means(无监督聚类算法)

  • 任务:无监督,无标签;
  • 核心:把全部无标记样本划分为KKK个簇,簇内距离近、簇间距离远;
  • KKK含义:预先设定的聚类簇总数;
    K太小:多个真实类别合并;K太大:类别过度拆分;常用肘部法则选K。

核心区别总结

  1. 有无标签:KNN监督,K-Means无监督;
  2. 目标:KNN做预测,K-Means分组;
  3. 运行方式:KNN无需训练,预测才计算;K-Means离线训练得到聚类中心。

十三、训练集 / 验证集 / 测试集(划分作用、规模、合理性)

1. 三套集合各自用途

  1. 训练集(占比最大,70%~80%)
    作用:拟合模型,更新参数、学习数据规律。
  2. 验证集(10%~15%)
    作用:模型选择、超参数调优、早停、决策树剪枝;不参与参数更新
  3. 测试集(10%~15%)
    作用:仅最后使用一次,评估模型真实泛化能力;全程不能参与训练与调参,否则评估结果虚高。

2. 划分是否合理判断标准

  1. 分层采样:三类集合类别分布和原始全集一致(数据不平衡任务尤其重要);
  2. 测试集仅最后一次性使用,不用来调参;
  3. 训练集样本最多,保证充分学习;
  4. 不使用测试集任何信息参与模型构建,避免数据泄露。

错误划分案例

把测试集用来调学习率、选K、剪枝 → 评估结果乐观,上线真实效果暴跌。


十四、模型评估方法 & 不平衡数据处理(地震样本不平衡例子)

1. 模型性能评估方法

  1. 划分策略:留出法、k折交叉验证、自助法bootstrap;
  2. 分类任务指标:
    基础:错误率、精度;
    不平衡数据核心:查准率P、召回率R、F1;P-R曲线、ROC、AUC;
  3. 回归任务:MSE、MAE。

2. 数据分布不平衡(地震预测案例:地震样本极少,普通地层样本极多)

问题:模型无脑预测多数类,精度极高但完全无法识别少数关键样本(地震漏判)。

解决方法

  1. 数据层面
  • 过采样:复制少数类样本(地震样本);
  • 欠采样:删减多数类普通样本;
  • 合成采样SMOTE:生成新少数样本。
  1. 模型损失层面
  • 类别加权损失:给少数类设置更大损失惩罚;
  • 使用F1、AUC替代精度作为评价指标(不依赖样本数量均衡);
  1. 算法层面:调整分类阈值,降低少数类漏判。

十五、MDP 马尔可夫决策过程(强化学习基础)

五元组定义MDP=⟨S,A,P,R,γ⟩MDP=\langle S,A,P,R,\gamma \rangleMDP=⟨S,A,P,R,γ⟩

  1. SSS:状态集合(环境当前情况)
  2. AAA:动作集合(智能体可执行操作)
  3. PPP:状态转移概率P(s′∣s,a)P(s'|s,a)P(s′∣s,a):当前状态sss执行动作aaa后跳转到s′s's′的概率
  4. RRR:即时奖励函数R(s,a,s′)R(s,a,s')R(s,a,s′),动作后获得反馈
  5. γ∈0,1\gamma\in0,1γ∈0,1:折扣因子,弱化远期奖励权重

核心性质:马尔可夫性

下一状态仅由当前状态、动作决定,和历史所有状态无关。

目标

寻找最优策略π(a∣s)\pi(a|s)π(a∣s):给定状态sss选动作aaa,最大化长期累积折扣奖励,是强化学习全部算法(Q-learning等)的基础框架。


考前极简背诵清单(直接背简答)

  1. 梯度下降沿负梯度更新,梯度0为极值;
  2. 复杂模型高方差过拟合,简单模型高偏差欠拟合;
  3. 信息增益=划分后混乱度减少量,ID3选最大增益特征;
  4. SVM最大化间隔,仅支持向量决定边界,核函数解决线性不可分;
  5. 拉普拉斯平滑消除零概率;NFL说明无万能算法;
  6. 监督有标签(分类/回归),无监督无标签(聚类/降维);
  7. 预剪枝训练快易欠拟合,后剪枝泛化更好;连续特征取中点分割;
  8. 特征选择去冗余,高维样本稀疏引发维度灾难;
  9. KNN监督预测,K-Means无监督聚类,两者K含义完全不同;
  10. 训练集训模型、验证集调参、测试集最终评估;
  11. 不平衡数据用过/欠采样、加权损失、F1/AUC评价;
  12. MDP五元组,马尔可夫性,强化学习基础。