机器学习面试·易错速问速答 30 题

机器学习面试·易错速问速答 30 题

每题都踩过一次坑,背完=跳过雷区。


1. 监督 vs 非监督

Q1:给一张用户购物流水表,只有 user_id 与 sku_id,想挖掘"人群包",属于监督还是非监督?

A:非监督。没有标签,目标只是"聚类"人群。
易错:别把"预测用户是否买 iPhone"当成非监督------一旦需要"是否",就得先打标签,成监督。


2. 回归与分类

Q2:线性回归做分类会出现什么玄学 bug?

A:输出域 (−∞,+∞) 可超出 [0,1],导致概率解释失效 +MSE 对误分类惩罚不对称
口诀:回归当分类用,loss 选交叉熵,输出加 Sigmoid。


3. 损失函数

Q3:LR 为何交叉熵比 MSE 好?手推梯度对比。

A:

MSE 梯度:∂L/∂w = (σ−y)σ(1−σ)x // 含 σ′→最大 0.25,更新慢

交叉熵梯度:∂L/∂w = (σ−y)x // 无 σ′,误差大则梯度大,训练飞起


4. 正则化

Q4:L1 在 0 不可导,坐标下降如何更新?写出软阈值公式。

A:

w_j ← S(w_j − α·g_j, αλ), S(a,b)=sign(a)max(|a|−b,0)
易错 :别把 λ 放错位置,必须乘学习率 α


5. 特征缩放

Q5:决策树需不需要归一化?Random Forest 呢?

A:都不需要。树按划分点 不care量纲;归一化既不会提速也不会提精度
反例 :KNN、SVM、神经网络必须归一化,否则距离/梯度被大特征绑架。


6. 交叉验证

Q6:k 折交叉验证 k 越大越好?

A:NO 。k↑ 方差↓但偏差↑,且训练 k 次成本↑;实际 5/10 折 是偏差-方差-时间三角平衡点。
易错 :时间序列用时间顺序切分 (TimeSeriesSplit),严禁随机 K 折


7. 评估指标

Q7:Accuracy=99% 就一定好吗?举一个 99% 仍垃圾的例子。

A:癌症筛查 1% 正例,全猜负例 Accuracy=99%,Recall=0 ------完全没用。
必须报:Precision、Recall、F1、AUC、PR-AUC。


8. 决策树

Q8:信息增益与增益率区别?各自缺陷?

A:

信息增益 偏向多取值特征 (如 ID 字段);

增益率 偏向少取值特征 (如性别)。

C4.5 先用信息增益筛 top →再选增益率最高,平衡两边偏见。


9. 随机森林

Q9:RF 为什么不用剪枝?

A:单棵树过拟合没关系 ,投票/平均把方差压下去;剪枝反而削弱单树表达能力 →集成收益↓。
易错 :别把"不剪枝"理解成"可以无限深",max_depth 仍要限,否则叶子节点样本过少=高方差。


10. GBDT vs XGBoost

Q10:GBDT 一阶导,XGB 二阶导,为什么二阶更稳?

A:泰勒二阶≈牛顿法,利用曲率信息 选择步长;加入叶子权重正则 →目标函数闭式解,防止过拟合


11. XGBoost 细节

Q11:XGB 如何处理缺失值?

A:把缺失样本分别放左右子节点 →计算两种增益,选增益大 的方向作为默认方向 ;预测时缺失值走该方向。
易错 :别答"用均值/众数填充",那是训练前 策略;XGB 内置处理。


12. LightGBM

Q12:LightGBM 比 XGB 快在哪两点?

A:

  1. 直方图分桶→内存↓8×,计算↓3×;
  2. Leaf-wise 生长(选最大 Δloss 叶子分裂)→同精度迭代数减半 ;需控制 max_depth 防过拟合。

13. SVM

Q13:RBF 核一定线性可分吗?

A:不一定 。RBF 把样本映到无穷维 ,但带宽 γ 过大 →过拟合,仍可能训练误差≠0;调 γ 是重点。


14. KNN

Q14:k 值过小/过大分别什么症状?

A:

k=1 → 过拟合,预测跳变;

k=N → 欠拟合,输出=全局众数。
调参 :先 k ∈ [3, 5, 7, 9, 15] + 交叉验证,再 weights='distance' 加权。


15. 聚类

Q15:K-means 损失函数非凸,如何缓解随机初始化带来的局部最优?

A:n_init=20 多次随机中心 + 选最小 SSEk-means++ 让初始中心彼此远离,一次初始化即可接近全局最优


16. 降维

Q16:PCA 白化是什么?为什么要除以特征值平方根?

A:投影后各主成分方差=特征值,白化=再缩放方差到 1消除相关性+同量纲,利于后续梯度下降。


17. 概率图

Q17:朴素贝叶斯"朴素"在哪?现实不独立为何还能用?

A:强行条件独立 →把 P(x₁...xₙ|y) 从 2ⁿ 参数降到 n+1;只要排序正确 (logit 单调)即可分类,不需要精准概率


18. 集成策略

Q18:Soft Voting vs Hard Voting 哪个更准?举例说明。

A:Soft 用预测概率平均 →利用置信度;Hard 只用 0/1 →信息损失。

例子:三模型对某样本概率 [0.51, 0.49, 0.49] → Soft=0.50(正),Hard=1 正 2 负→负,Soft 更合理


19. 类别不平衡

Q19:XGBoost 的 scale_pos_weight 如何设置?

A:scale_pos_weight = 负样本数 / 正样本数本质给正样本梯度乘权重→让模型更关注少数类。


20. 特征交叉

Q20:FM 为什么能二阶交叉却只要 O(nk) 参数?

A:交叉权重矩阵 W 用低秩分解 W=VVᵀ,参数从 n² → nk;内积即用即算,无需存 n² 元素。


21. 在线学习

Q21:FTRL 相比 SGD 优势?

A:FTRL 引入L1 正则的逐维学习率稀疏解+适合高维稀疏特征 (CTR 点击率预估);SGD 全量更新,不稀疏


22. 超参搜索

Q22:Random Search 为什么比 Grid Search 高效?

A:高维空间下有效参数极少 ,随机探索指数级提高命中概率 ;Bergstra 论文证明60 次随机≈256 次网格


23. 梯度消失

Q23:BatchNorm 为什么能缓解梯度消失?反向传播公式简述。

A:BN 把每层输入拉回 N(0,1),避免 sigmoid/tanh 落入饱和区 ;反向时∂L/∂x 含方差倒数项 →梯度稳定常数阶


24. 模型解释

Q24:树模型如何计算特征重要性?三种方法差异?

A:

  1. Gini/信息增益 总和------训练阶段 快速,易偏向高频特征
  2. OOB 精度下降 ------无需额外验证集,但计算慢;
  3. SHAP 值 ------一致性与可加性最准也最慢,可解释单样本。

25. 缺失值陷阱

Q25:测试集出现训练集未见过的类别,怎么处理?

A:训练集用 OneHotEncoder(handle_unknown='ignore')哈希编码严禁用众数填充再训练 ,会导致数据泄漏


26. 多标签分类

Q26:OvR 与 OvO 在多分类的复杂度差异?

A:OvR 训练 k 个模型,预测 k 次 ;OvO 训练 k(k-1)/2 个,预测 k(k-1)/2 次投票
k 大 时 OvO 模型数爆炸,内存占用↑ ;但单模型训练集小适合线性不可分场景。


27. 核函数

Q27:多项式核与 RBF 核哪个参数更多?调参难度?

A:多项式核 (γxᵀx'+r)^d3 超参 (γ,r,d),组合爆炸 ;RBF 仅 γ,网格搜索一维即可工业界更爱 RBF


28. 早停

Q28:XGBoost early_stopping_rounds 具体停在哪一轮?

A:验证集评估指标 连续 early_stopping_rounds不下降 即停,回滚最优迭代+1 模型被 dump,**predict 自动用最优。


29. 数据泄漏

Q29:交叉验证里能先整表归一化再划分吗?

A:不能!要先在训练折 里 fit 归一化器,再 transform 验证折;整表 fit→信息泄漏→验证虚高


30. 树深度

Q30:LightGBM num_leavesmax_depth 关系?

A:Leaf-wise 树叶子数↑远快于深度 ;经验 num_leaves ≤ 2^max_depth设 31 叶≈深 5 叉树,再大易过拟合。


背完这 30 问,面试官的坑你全提前踩平。祝你 offer 拿到手软!

相关推荐
geffen16882 小时前
支持语音识别并控制的混合高清矩阵:革新视听体验,开启智能控制新时代
人工智能·矩阵·语音识别
永远都不秃头的程序员(互关)2 小时前
【K-Means深度探索(七)】玩转图像!K-Means如何在像素世界中实现颜色压缩?
算法·机器学习·kmeans
石去皿2 小时前
深度学习面试高频问题和答复
人工智能·深度学习·面试
a程序小傲2 小时前
哈罗Java面试被问:布隆过滤器的误判率和哈希函数选择
java·服务器·算法·面试·职场和发展·哈希算法
光锥智能2 小时前
安克创新与飞书联合发布“安克 AI 录音豆” 手指可握仅重 10 克
人工智能·飞书
EkihzniY2 小时前
车牌相机:铁路桥安全防护的 “智慧眼睛”
人工智能
Blossom.1182 小时前
实时知识增强大模型:基于Flink的流式向量索引与动态RAG系统
大数据·运维·人工智能·python·flink·prompt·知识图谱
renhongxia12 小时前
数据可视化实战:用AI工具制作专业数据分析图表
人工智能·信息可视化·语言模型·自然语言处理·数据分析·制造
填满你的记忆2 小时前
【从零开始——Redis 进化日志|Day6】缓存的三剑客:穿透、击穿、雪崩,到底怎么防?(附生产级代码实战)
java·数据库·redis·缓存·面试