西瓜书期末考点精准背诵版(完全匹配老师划定范围)
一、梯度计算(计算类考点)
1. 梯度是什么
对损失函数L(w)L(\boldsymbol w)L(w),梯度∇L\nabla L∇L是参数空间上升最快的方向 ;梯度下降取−∇L-\nabla L−∇L,沿损失减小方向更新参数:
w=w−η∇L\boldsymbol w = \boldsymbol w - \eta \nabla Lw=w−η∇L
η\etaη:学习率。
2. 常见梯度必考计算
- 线性回归均方损失 L=12∥y−Xw∥22L=\frac12\|\boldsymbol y-X\boldsymbol w\|_2^2L=21∥y−Xw∥22
∇L=XT(Xw−y)\nabla L = X^T(X\boldsymbol w - \boldsymbol y)∇L=XT(Xw−y) - L2正则损失 L=12∥y−Xw∥22+λ2∥w∥22L=\frac12\|\boldsymbol y-X\boldsymbol w\|_2^2+\frac\lambda2\|\boldsymbol w\|_2^2L=21∥y−Xw∥22+2λ∥w∥22
∇L=XT(Xw−y)+λw\nabla L = X^T(X\boldsymbol w-\boldsymbol y)+\lambda \boldsymbol w∇L=XT(Xw−y)+λw - 逻辑回归交叉熵损失:梯度形式和线性回归结构一致,仅预测值换成sigmoid输出。
3. 考点问答
- 梯度为0:到达极值点(凸函数全局最优,神经网络/非凸仅局部最优)
- 梯度消失:深层网络梯度趋近0,参数几乎不更新,模型不收敛。
二、偏差、方差、噪声 & 三者与模型性能的关系
泛化误差分解公式:
泛化误差=偏差2+方差+噪声\text{泛化误差} = \text{偏差}^2 + \text{方差} + \text{噪声}泛化误差=偏差2+方差+噪声
- 偏差
模型本身拟合能力不足带来的误差,反映模型期望预测和真实函数的差距。
- 模型简单 → 高偏差 → 欠拟合(训练、测试误差都高)
- 方差
相同规模不同训练集训练出模型的预测波动,对训练集噪声敏感。
- 模型复杂 → 高方差 → 过拟合(训练误差极低,测试误差很高)
- 噪声
数据本身固有误差,无法通过优化模型消除,是误差下界。
变化规律(必背简答)
模型复杂度上升:偏差持续下降,方差持续上升;
最优复杂度平衡偏差与方差,泛化误差最小。
- Bagging(随机森林):降低方差,缓解过拟合
- Boosting:持续降低偏差,擅长解决欠拟合
三、信息增益(概念+使用含义,决策树核心)
1. 信息熵Ent(D)Ent(D)Ent(D)
衡量数据集纯度,熵越大,样本类别越混乱。
Ent(D)=−∑k=1∣Y∣pklog2pkEnt(D)=-\sum_{k=1}^{|\mathcal Y|}p_k\log_2 p_kEnt(D)=−k=1∑∣Y∣pklog2pk
pkp_kpk:数据集D中第k类样本占比。
2. 信息增益定义
Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^V \frac{|D_v|}{|D|}Ent(D_v)Gain(D,a)=Ent(D)−v=1∑V∣D∣∣Dv∣Ent(Dv)
- Ent(D)Ent(D)Ent(D):划分前整体混乱度
- 求和项:用特征aaa划分后,各子集加权平均混乱度
3. 使用时代表什么(考试必背)
信息增益 = 使用特征a划分数据集后,整体混乱度下降的幅度 。
ID3算法规则:选择信息增益最大的特征作为当前划分节点,一次性最大程度降低样本混乱、提升纯度。
4. 缺陷
天然偏好取值多的特征(如样本编号),这类特征划分后熵直接趋近0,增益极大但泛化差;C4.5用信息增益比做惩罚修正。
四、支持向量机SVM
1. 什么是SVM
二分类判别模型,核心目标:在样本空间寻找几何间隔最大的分离超平面,最大化两类样本距离分界线的最小距离,以此获得最优泛化能力。
2. SVM有什么是确定不变的
- 优化目标是凸二次规划,不存在局部最优,一定能求出全局最优解(区别于神经网络);
- 最终决策边界仅由支持向量决定,非支持向量增减不改变超平面;
- 间隔最大化是核心准则;
- 线性不可分场景统一依靠核函数映射高维解决。
3. 线性不可分如何处理
引入核技巧 :通过核函数K(xi,xj)K(x_i,x_j)K(xi,xj)隐式将低维样本映射到高维特征空间,让样本在高维线性可分,无需显式计算高维向量。
常用核:线性核、多项式核、高斯RBF核(最通用)。
补充软间隔:引入松弛变量ξi\xi_iξi,允许少量样本越过间隔边界,惩罚系数CCC控制对错分的容忍度。
五、核函数(老师括号标注考点)
1. 定义
对映射ϕ:X→H\phi: \mathcal X \to \mathcal Hϕ:X→H(低维→高维希尔伯特空间),核函数满足:
K(xi,xj)=ϕ(xi)Tϕ(xj)K(x_i,x_j)=\phi(x_i)^T \phi(x_j)K(xi,xj)=ϕ(xi)Tϕ(xj)
直接计算低维内积等价于高维特征内积,规避高维维度爆炸,降低计算量。
2. 判定条件
对称半正定函数才是合法核函数(Mercer定理)。
六、拉普拉斯平滑(朴素贝叶斯必考)
1. 解决什么问题
原始频率统计中,若某特征取值在训练集中从未出现,条件概率P(xj∣c)=0P(x_j|c)=0P(xj∣c)=0,整条样本后验直接归零,无法正常分类(零概率问题)。
2. 怎么做(离散特征公式)
P(xj∣c)=Nc,j+1Nc+NjP(x_j|c)=\frac{N_{c,j}+1}{N_c + N_j}P(xj∣c)=Nc+NjNc,j+1
- Nc,jN_{c,j}Nc,j:类别c下特征j取该值样本数
- NcN_cNc:类别c总样本
- NjN_jNj:特征j全部取值种类数
分子+1、分母+取值总数,给所有特征分配极小平滑概率,杜绝0概率。
3. 本质
给先验加入均匀先验假设,等价贝叶斯估计,小样本稳定性大幅提升。
七、没有免费午餐定理 NFL(配套平滑一起理解)
核心内容
所有学习算法在全部潜在数据分布上的平均泛化误差完全相等,不存在绝对万能最优算法。
现实意义
- 脱离任务数据分布,无法判定算法好坏;
- 算法有效,是因为其归纳偏好刚好匹配当前数据集;
- 拉普拉斯平滑、奥卡姆剃刀都是人为引入合理归纳偏好,适配真实数据。
八、过拟合 & 欠拟合(定义+现象+解决)
1. 欠拟合
定义:模型学习能力不足,未捕捉数据底层规律。
现象:训练误差高、测试误差高。
成因:模型过于简单、特征过少、训练轮次不足。
解决:增加特征、提升模型复杂度、减少正则、延长训练。
2. 过拟合
定义:模型记住训练集噪声、特例,而非通用规律。
现象:训练误差极低,测试误差远高于训练误差。
成因:模型复杂、训练样本少、噪声多、训练轮次过多。
解决:扩充数据集、正则化(L1/L2)、早停、决策树剪枝、Dropout、数据增强。
九、监督学习 vs 无监督学习(算法、任务、场景全覆盖)
1. 监督学习
定义:数据集包含输入xxx+对应标记yyy,学习x→yx\to yx→y映射。
细分任务+代表算法+应用场景
- 分类(yyy离散)
逻辑回归、决策树、SVM、朴素贝叶斯、随机森林、BP神经网络
场景:垃圾邮件识别、图像猫狗分类、疾病诊断 - 回归(yyy连续)
线性回归、岭回归、Lasso、GBDT回归
场景:房价预测、销量预估、温度预测
2. 无监督学习
定义:只有样本xxx,无任何标记yyy,挖掘数据内在结构。
细分任务+代表算法+应用场景
- 聚类
K-Means、层次聚类、DBSCAN
场景:用户分群、商品聚类、异常检测 - 降维
PCA、LDA(无监督版PCA)
场景:数据可视化、高维特征压缩、去除冗余特征 - 关联规则挖掘
场景:购物篮分析
补充半监督:少量标记+大量无标记;强化学习MDP单独一节。
十、决策树考点:剪枝 + 连续值处理
1. 剪枝(缓解过拟合两大方法)
- 预剪枝
建树过程中提前停止划分:划分后验证集精度不提升则停止分支。
优点:训练速度快;缺点:容易欠拟合。 - 后剪枝
完整生成整棵决策树后,自底向上遍历分支,删除子树替换为叶节点,验证集精度不下降就执行剪枝。
优点:泛化能力更强;缺点:计算量大。
2. 连续特征处理
连续值不能直接划分,离散化处理:
- 将特征所有取值从小到大排序;
- 取相邻两个值中点作为候选分割点;
- 对每个分割点二分数据集,计算信息增益/基尼指数;
- 选择最优分割点完成二分,连续特征转为二元离散分支。
十一、特征选择 + 维度灾难(降维配套考点)
1. 特征选择(筛选有效特征,去除冗余噪声特征)
三类方法:
- 过滤式:独立于模型,方差、相关系数、互信息,速度快;
- 包裹式:用模型效果评判特征(RFE递归特征消除),效果好、计算慢;
- 嵌入式:训练模型同步做特征筛选(Lasso产生稀疏权重,自动置无效特征为0)。
作用:减少冗余、加速训练、缓解维度灾难、降低过拟合。
2. 维度灾难
定义:特征维度极高时,同等数量样本在高维空间极度稀疏,样本之间距离几乎无差别,距离度量失效、模型泛化急剧变差。
解决手段:特征选择、降维(PCA)。
十二、聚类 vs K近邻KNN(区别+K的含义)
1. KNN(监督分类/回归算法)
- 任务:监督学习,有标签;
- 核心:预测单个样本时,找距离最近KKK个训练样本,投票(分类)/平均(回归)输出结果;
- KKK含义:参考近邻样本的数量;
K过小:受噪声干扰,过拟合;K过大:类别被稀释,欠拟合。 - 缺点:惰性学习,预测速度慢,高维受维度灾难影响大。
2. K-Means(无监督聚类算法)
- 任务:无监督,无标签;
- 核心:把全部无标记样本划分为KKK个簇,簇内距离近、簇间距离远;
- KKK含义:预先设定的聚类簇总数;
K太小:多个真实类别合并;K太大:类别过度拆分;常用肘部法则选K。
核心区别总结
- 有无标签:KNN监督,K-Means无监督;
- 目标:KNN做预测,K-Means分组;
- 运行方式:KNN无需训练,预测才计算;K-Means离线训练得到聚类中心。
十三、训练集 / 验证集 / 测试集(划分作用、规模、合理性)
1. 三套集合各自用途
- 训练集(占比最大,70%~80%)
作用:拟合模型,更新参数、学习数据规律。 - 验证集(10%~15%)
作用:模型选择、超参数调优、早停、决策树剪枝;不参与参数更新。 - 测试集(10%~15%)
作用:仅最后使用一次,评估模型真实泛化能力;全程不能参与训练与调参,否则评估结果虚高。
2. 划分是否合理判断标准
- 分层采样:三类集合类别分布和原始全集一致(数据不平衡任务尤其重要);
- 测试集仅最后一次性使用,不用来调参;
- 训练集样本最多,保证充分学习;
- 不使用测试集任何信息参与模型构建,避免数据泄露。
错误划分案例
把测试集用来调学习率、选K、剪枝 → 评估结果乐观,上线真实效果暴跌。
十四、模型评估方法 & 不平衡数据处理(地震样本不平衡例子)
1. 模型性能评估方法
- 划分策略:留出法、k折交叉验证、自助法bootstrap;
- 分类任务指标:
基础:错误率、精度;
不平衡数据核心:查准率P、召回率R、F1;P-R曲线、ROC、AUC; - 回归任务:MSE、MAE。
2. 数据分布不平衡(地震预测案例:地震样本极少,普通地层样本极多)
问题:模型无脑预测多数类,精度极高但完全无法识别少数关键样本(地震漏判)。
解决方法
- 数据层面
- 过采样:复制少数类样本(地震样本);
- 欠采样:删减多数类普通样本;
- 合成采样SMOTE:生成新少数样本。
- 模型损失层面
- 类别加权损失:给少数类设置更大损失惩罚;
- 使用F1、AUC替代精度作为评价指标(不依赖样本数量均衡);
- 算法层面:调整分类阈值,降低少数类漏判。
十五、MDP 马尔可夫决策过程(强化学习基础)
五元组定义MDP=⟨S,A,P,R,γ⟩MDP=\langle S,A,P,R,\gamma \rangleMDP=⟨S,A,P,R,γ⟩
- SSS:状态集合(环境当前情况)
- AAA:动作集合(智能体可执行操作)
- PPP:状态转移概率P(s′∣s,a)P(s'|s,a)P(s′∣s,a):当前状态sss执行动作aaa后跳转到s′s's′的概率
- RRR:即时奖励函数R(s,a,s′)R(s,a,s')R(s,a,s′),动作后获得反馈
- γ∈0,1\gamma\in0,1γ∈0,1:折扣因子,弱化远期奖励权重
核心性质:马尔可夫性
下一状态仅由当前状态、动作决定,和历史所有状态无关。
目标
寻找最优策略π(a∣s)\pi(a|s)π(a∣s):给定状态sss选动作aaa,最大化长期累积折扣奖励,是强化学习全部算法(Q-learning等)的基础框架。
考前极简背诵清单(直接背简答)
- 梯度下降沿负梯度更新,梯度0为极值;
- 复杂模型高方差过拟合,简单模型高偏差欠拟合;
- 信息增益=划分后混乱度减少量,ID3选最大增益特征;
- SVM最大化间隔,仅支持向量决定边界,核函数解决线性不可分;
- 拉普拉斯平滑消除零概率;NFL说明无万能算法;
- 监督有标签(分类/回归),无监督无标签(聚类/降维);
- 预剪枝训练快易欠拟合,后剪枝泛化更好;连续特征取中点分割;
- 特征选择去冗余,高维样本稀疏引发维度灾难;
- KNN监督预测,K-Means无监督聚类,两者K含义完全不同;
- 训练集训模型、验证集调参、测试集最终评估;
- 不平衡数据用过/欠采样、加权损失、F1/AUC评价;
- MDP五元组,马尔可夫性,强化学习基础。