机器学习 + 深度学习经典面试真题

前言

第一部分：机器学习高频面试题

[1. K 近邻（KNN）](#1. K 近邻（KNN）)

基础题

进阶题

实战题

[2. 逻辑回归（LR）](#2. 逻辑回归（LR）)

[3. 决策树](#3. 决策树)

[4. 集成学习（随机森林、XGBoost、AdaBoost）](#4. 集成学习（随机森林、XGBoost、AdaBoost）)

基础题

进阶题

实战题

[5. 支持向量机（SVM）](#5. 支持向量机（SVM）)

基础题

进阶题

实战题

[6. 聚类算法（KMeans、DBSCAN）](#6. 聚类算法（KMeans、DBSCAN）)

基础题

进阶题

[7. 降维算法（PCA）](#7. 降维算法（PCA）)

[1. 多层感知机（MLP）](#1. 多层感知机（MLP）)

基础题

进阶题

[2. 卷积神经网络（CNN）](#2. 卷积神经网络（CNN）)

基础题

进阶题

实战题

[3. RNN/LSTM](#3. RNN/LSTM)

基础题

进阶题

实战题

[4. Transformer 与 BERT](#4. Transformer 与 BERT)

前言

我整理了春招最常考的机器学习、深度学习面试题，剔除冗余理论，聚焦原理理解、工程实践、对比差异、调优思路，覆盖 KNN、LR、树模型、集成学习、SVM、聚类、PCA，以及 MLP、CNN、RNN/LSTM、Transformer/BERT 全考点，助力快速通关技术面。

第一部分：机器学习高频面试题

1. K 近邻（KNN）

基础题

Q1：KNN 核心思想与距离度量？A：基于近邻投票分类 / 回归；常用欧氏距离、曼哈顿距离、余弦相似度（高维稀疏数据）。

Q2：K 值如何选择？A：K 过小易过拟合，K 过大模型欠拟合；常用交叉验证选最优 K，奇数避免平票。

进阶题

Q1：KD 树 / 球树作用？A：优化 KNN 近邻搜索，将暴力搜索 O (N) 降为 O (logN)，解决大数据量效率问题。

Q2：KNN 优缺点？A：优点：简单无训练、适配多分类；缺点：计算量大、对异常值 / 量纲敏感、高维数据效果差。

实战题

Q：工业界海量数据下如何优化 KNN？A：特征标准化 + 降维（PCA）+KD 树索引 + 近似近邻（ANN）算法。

2. 逻辑回归（LR）

基础题

Q1：LR 为什么用 Sigmoid？损失函数是什么？A：Sigmoid 将输出映射到 (0,1) 概率区间；损失为对数似然损失（交叉熵），避免均方误差非凸。

Q2：LR 是线性模型吗？A：是，决策边界线性，通过 sigmoid 完成非线性映射，本质广义线性模型。

进阶题

Q1：LR 如何处理多分类？A：One-vs-Rest、Softmax 回归（多分类 LR）。

Q2：L1/L2 正则对 LR 的作用？A：L1 做特征选择、稀疏化；L2 抑制过拟合、平滑权重。

实战题

Q：样本不平衡时 LR 如何优化？A：正负样本加权、过采样 / 欠采样、Focal Loss、阈值调整。

3. 决策树

基础题

Q1：三大划分准则对比？A：ID3（信息增益，偏好多值特征）→C4.5（信息增益比，修正偏差）→CART（基尼系数，二叉树，支持分类 / 回归）。

Q2：预剪枝与后剪枝？A：预剪枝限制树深 / 叶子节点数；后剪枝先长成树再剪枝，泛化更强但耗时。

进阶题

Q1：决策树如何处理连续值 / 缺失值？A：连续值二分划分；缺失值按权重分配到子节点。

Q2：决策树优缺点？A：优点：可解释、处理非线性、无需标准化；缺点：易过拟合、不稳定、忽略特征关联。

4. 集成学习（随机森林、XGBoost、AdaBoost）

基础题

Q1：Bagging vs Boosting？A：Bagging（随机森林）：有放回抽样、树并行、降低方差；Boosting（XGBoost/AdaBoost）：串行训练、聚焦错分样本、降低偏差。

Q2：随机森林核心原理？A：Bagging + 特征子采样，多树投票 / 平均，抗过拟合、支持并行。

进阶题

Q1：XGBoost 相对 GBDT 的改进？A：二阶泰勒展开、L1/L2 正则、列采样、自动处理缺失值、稀疏感知、并行优化。

Q2：AdaBoost 权重更新规则？A：错分样本权重提升，正确样本权重降低，线性组合弱分类器。

实战题

Q：XGBoost 核心调参思路？A：控制复杂度（max_depth、min_child_weight）→正则（gamma、reg_alpha/lambda）→学习率（eta）+ 迭代次数，交叉验证调优。

5. 支持向量机（SVM）

基础题

Q1：SVM 核心思想？A：寻找最大间隔超平面，间隔越大泛化越强；软间隔处理线性不可分。

Q2：常用核函数？A：线性核（线性可分）、高斯核（RBF，非线性）、多项式核、Sigmoid 核。

进阶题

Q1：SVM vs LR？A：SVM：间隔最大化、依赖支持向量、适配高维小样本；LR：概率输出、鲁棒、适合大规模数据。

Q2：SVM 多分类实现？A：One-vs-One、One-vs-Rest。

实战题

Q：大规模数据下 SVM 优化？A：随机梯度下降（SGD）、核函数近似、特征降维。

6. 聚类算法（KMeans、DBSCAN）

基础题

Q1：KMeans 流程？A：选 K 个初始中心→分配样本→更新中心→迭代至收敛。

Q2：DBSCAN 核心概念？A：基于密度聚类，无需指定 K，识别离群点，适配任意形状簇。

进阶题

Q1：KMeans 缺点与优化？A：缺点：对初始值 / 异常值敏感、球形簇假设；优化：KMeans++ 初始中心、标准化、MiniBatch KMeans。

Q2：聚类评估指标？A：轮廓系数、CH 指数、DB 指数（无标签）；ARI、NMI（有标签）。

7. 降维算法（PCA）

基础题

Q1：PCA 核心原理？A：基于协方差矩阵特征值分解，保留主成分，最大化方差、最小信息损失。

Q2：PCA 为什么要标准化？A：消除量纲影响，避免大数值特征主导方差。

进阶题

Q1：PCA vs LDA？A：PCA 无监督、最大化全局方差；LDA 有监督、最大化类间差最小化类内差。

实战题

Q：高维数据降维后如何评估效果？A：保留方差占比（≥95%）、聚类 / 分类任务精度、可视化效果。

第二部分：深度学习高频面试题

1. 多层感知机（MLP）

基础题

Q1：MLP 核心结构与反向传播？A：输入层 + 隐藏层 + 输出层；BP 基于链式求导，更新权重拟合残差。

Q2：常用激活函数对比？A：Sigmoid（梯度消失）、Tanh（零均值）、ReLU（缓解梯度消失、计算快）、LeakyReLU（解决死 ReLU）。

进阶题

Q1：梯度消失原因与解决？A：深层网络激活函数饱和；方案：ReLU、残差连接、BN、合适初始化。

Q2：BatchNorm 作用？A：标准化激活值，加速收敛、缓解内部协变量偏移、抑制过拟合。

2. 卷积神经网络（CNN）

基础题

Q1：卷积 / 池化核心作用？A：卷积提取局部特征、权值共享降参；池化降维、保留关键特征、增强鲁棒性。

Q2：感受野计算？A：多层卷积叠加，感受野逐步扩大，捕获全局信息。

进阶题

Q1：经典 CNN 演进？A：LeNet→AlexNet（ReLU/dropout）→VGG（小卷积核）→ResNet（残差解决深层梯度消失）。

Q2：空洞卷积 / 分组卷积？A：空洞卷积扩大感受野不降分辨率；分组卷积降参、提升效率（MobileNet）。

实战题

Q：CNN 过拟合解决？A：Dropout、数据增强、BN、权重衰减、早停。

3. RNN/LSTM

基础题

Q1：RNN 梯度消失原因？A：循环层权重矩阵连乘，梯度指数级衰减。

Q2：LSTM 三大门结构？A：遗忘门（丢弃信息）、输入门（更新信息）、输出门（输出信息），细胞状态长期记忆。

进阶题

Q1：LSTM vs GRU？A：GRU 合并更新 / 重置门，参数量更少、速度更快；LSTM 记忆能力更强。

Q2：双向 LSTM 应用？A：NLP 序列标注（NER、分词），利用上下文信息。

实战题

Q：长序列 RNN 优化？A：Truncated BPTT、LSTM/GRU、Transformer 替代。

4. Transformer 与 BERT

基础题

Q1：Transformer 核心机制？A：自注意力（Self-Attention）+ 位置编码，替代 RNN 捕获长依赖，支持并行。

Q2：多头注意力作用？A：捕获不同子空间特征，提升表达能力。

进阶题

Q1：BERT 预训练任务？A：MLM（掩码语言模型）+NSP（下一句预测），双向编码。

Q2：BERT vs GPT？A：BERT（Encoder）双向注意力，理解任务；GPT（Decoder）单向注意力，生成任务。

实战题

Q：BERT 微调优化？A：分层学习率、权重衰减、对抗训练、更长序列截断、模型蒸馏。

面试总结

基础必牢：算法原理、损失函数、核心公式、结构差异是必考点。
工程导向 ：面试官更关注调参、优化、落地场景、问题排查。
对比思维：同类算法 / 模型横向对比（如 LR vs SVM、CNN vs Transformer）是高频题型。
实战经验：结合项目讲模型选型、踩坑与优化，加分拉满。