机器学习 + 深度学习经典面试真题

目录

前言

第一部分:机器学习高频面试题

[1. K 近邻(KNN)](#1. K 近邻(KNN))

基础题

进阶题

实战题

[2. 逻辑回归(LR)](#2. 逻辑回归(LR))

基础题

进阶题

实战题

[3. 决策树](#3. 决策树)

基础题

进阶题

[4. 集成学习(随机森林、XGBoost、AdaBoost)](#4. 集成学习(随机森林、XGBoost、AdaBoost))

基础题

进阶题

实战题

[5. 支持向量机(SVM)](#5. 支持向量机(SVM))

基础题

进阶题

实战题

[6. 聚类算法(KMeans、DBSCAN)](#6. 聚类算法(KMeans、DBSCAN))

基础题

进阶题

[7. 降维算法(PCA)](#7. 降维算法(PCA))

基础题

进阶题

实战题

第二部分:深度学习高频面试题

[1. 多层感知机(MLP)](#1. 多层感知机(MLP))

基础题

进阶题

[2. 卷积神经网络(CNN)](#2. 卷积神经网络(CNN))

基础题

进阶题

实战题

[3. RNN/LSTM](#3. RNN/LSTM)

基础题

进阶题

实战题

[4. Transformer 与 BERT](#4. Transformer 与 BERT)

基础题

进阶题

实战题

面试总结



前言

我整理了春招最常考的机器学习、深度学习面试题,剔除冗余理论,聚焦原理理解、工程实践、对比差异、调优思路,覆盖 KNN、LR、树模型、集成学习、SVM、聚类、PCA,以及 MLP、CNN、RNN/LSTM、Transformer/BERT 全考点,助力快速通关技术面。


第一部分:机器学习高频面试题

1. K 近邻(KNN)

基础题

Q1:KNN 核心思想与距离度量?A:基于近邻投票分类 / 回归;常用欧氏距离、曼哈顿距离、余弦相似度(高维稀疏数据)。

Q2:K 值如何选择?A:K 过小易过拟合,K 过大模型欠拟合;常用交叉验证选最优 K,奇数避免平票。

进阶题

Q1:KD 树 / 球树作用?A:优化 KNN 近邻搜索,将暴力搜索 O (N) 降为 O (logN),解决大数据量效率问题。

Q2:KNN 优缺点?A:优点:简单无训练、适配多分类;缺点:计算量大、对异常值 / 量纲敏感、高维数据效果差。

实战题

Q:工业界海量数据下如何优化 KNN?A:特征标准化 + 降维(PCA)+KD 树索引 + 近似近邻(ANN)算法。

2. 逻辑回归(LR)

基础题

Q1:LR 为什么用 Sigmoid?损失函数是什么?A:Sigmoid 将输出映射到 (0,1) 概率区间;损失为对数似然损失(交叉熵),避免均方误差非凸。

Q2:LR 是线性模型吗?A:是,决策边界线性,通过 sigmoid 完成非线性映射,本质广义线性模型。

进阶题

Q1:LR 如何处理多分类?A:One-vs-Rest、Softmax 回归(多分类 LR)。

Q2:L1/L2 正则对 LR 的作用?A:L1 做特征选择、稀疏化;L2 抑制过拟合、平滑权重。

实战题

Q:样本不平衡时 LR 如何优化?A:正负样本加权、过采样 / 欠采样、Focal Loss、阈值调整。

3. 决策树

基础题

Q1:三大划分准则对比?A:ID3(信息增益,偏好多值特征)→C4.5(信息增益比,修正偏差)→CART(基尼系数,二叉树,支持分类 / 回归)。

Q2:预剪枝与后剪枝?A:预剪枝限制树深 / 叶子节点数;后剪枝先长成树再剪枝,泛化更强但耗时。

进阶题

Q1:决策树如何处理连续值 / 缺失值?A:连续值二分划分;缺失值按权重分配到子节点。

Q2:决策树优缺点?A:优点:可解释、处理非线性、无需标准化;缺点:易过拟合、不稳定、忽略特征关联。

4. 集成学习(随机森林、XGBoost、AdaBoost)

基础题

Q1:Bagging vs Boosting?A:Bagging(随机森林):有放回抽样、树并行、降低方差;Boosting(XGBoost/AdaBoost):串行训练、聚焦错分样本、降低偏差。

Q2:随机森林核心原理?A:Bagging + 特征子采样,多树投票 / 平均,抗过拟合、支持并行。

进阶题

Q1:XGBoost 相对 GBDT 的改进?A:二阶泰勒展开、L1/L2 正则、列采样、自动处理缺失值、稀疏感知、并行优化。

Q2:AdaBoost 权重更新规则?A:错分样本权重提升,正确样本权重降低,线性组合弱分类器。

实战题

Q:XGBoost 核心调参思路?A:控制复杂度(max_depth、min_child_weight)→正则(gamma、reg_alpha/lambda)→学习率(eta)+ 迭代次数,交叉验证调优。

5. 支持向量机(SVM)

基础题

Q1:SVM 核心思想?A:寻找最大间隔超平面,间隔越大泛化越强;软间隔处理线性不可分。

Q2:常用核函数?A:线性核(线性可分)、高斯核(RBF,非线性)、多项式核、Sigmoid 核。

进阶题

Q1:SVM vs LR?A:SVM:间隔最大化、依赖支持向量、适配高维小样本;LR:概率输出、鲁棒、适合大规模数据。

Q2:SVM 多分类实现?A:One-vs-One、One-vs-Rest。

实战题

Q:大规模数据下 SVM 优化?A:随机梯度下降(SGD)、核函数近似、特征降维。

6. 聚类算法(KMeans、DBSCAN)

基础题

Q1:KMeans 流程?A:选 K 个初始中心→分配样本→更新中心→迭代至收敛。

Q2:DBSCAN 核心概念?A:基于密度聚类,无需指定 K,识别离群点,适配任意形状簇。

进阶题

Q1:KMeans 缺点与优化?A:缺点:对初始值 / 异常值敏感、球形簇假设;优化:KMeans++ 初始中心、标准化、MiniBatch KMeans。

Q2:聚类评估指标?A:轮廓系数、CH 指数、DB 指数(无标签);ARI、NMI(有标签)。

7. 降维算法(PCA)

基础题

Q1:PCA 核心原理?A:基于协方差矩阵特征值分解,保留主成分,最大化方差、最小信息损失。

Q2:PCA 为什么要标准化?A:消除量纲影响,避免大数值特征主导方差。

进阶题

Q1:PCA vs LDA?A:PCA 无监督、最大化全局方差;LDA 有监督、最大化类间差最小化类内差。

实战题

Q:高维数据降维后如何评估效果?A:保留方差占比(≥95%)、聚类 / 分类任务精度、可视化效果。


第二部分:深度学习高频面试题

1. 多层感知机(MLP)

基础题

Q1:MLP 核心结构与反向传播?A:输入层 + 隐藏层 + 输出层;BP 基于链式求导,更新权重拟合残差。

Q2:常用激活函数对比?A:Sigmoid(梯度消失)、Tanh(零均值)、ReLU(缓解梯度消失、计算快)、LeakyReLU(解决死 ReLU)。

进阶题

Q1:梯度消失原因与解决?A:深层网络激活函数饱和;方案:ReLU、残差连接、BN、合适初始化。

Q2:BatchNorm 作用?A:标准化激活值,加速收敛、缓解内部协变量偏移、抑制过拟合。

2. 卷积神经网络(CNN)

基础题

Q1:卷积 / 池化核心作用?A:卷积提取局部特征、权值共享降参;池化降维、保留关键特征、增强鲁棒性。

Q2:感受野计算?A:多层卷积叠加,感受野逐步扩大,捕获全局信息。

进阶题

Q1:经典 CNN 演进?A:LeNet→AlexNet(ReLU/dropout)→VGG(小卷积核)→ResNet(残差解决深层梯度消失)。

Q2:空洞卷积 / 分组卷积?A:空洞卷积扩大感受野不降分辨率;分组卷积降参、提升效率(MobileNet)。

实战题

Q:CNN 过拟合解决?A:Dropout、数据增强、BN、权重衰减、早停。

3. RNN/LSTM

基础题

Q1:RNN 梯度消失原因?A:循环层权重矩阵连乘,梯度指数级衰减。

Q2:LSTM 三大门结构?A:遗忘门(丢弃信息)、输入门(更新信息)、输出门(输出信息),细胞状态长期记忆。

进阶题

Q1:LSTM vs GRU?A:GRU 合并更新 / 重置门,参数量更少、速度更快;LSTM 记忆能力更强。

Q2:双向 LSTM 应用?A:NLP 序列标注(NER、分词),利用上下文信息。

实战题

Q:长序列 RNN 优化?A:Truncated BPTT、LSTM/GRU、Transformer 替代。

4. Transformer 与 BERT

基础题

Q1:Transformer 核心机制?A:自注意力(Self-Attention)+ 位置编码,替代 RNN 捕获长依赖,支持并行。

Q2:多头注意力作用?A:捕获不同子空间特征,提升表达能力。

进阶题

Q1:BERT 预训练任务?A:MLM(掩码语言模型)+NSP(下一句预测),双向编码。

Q2:BERT vs GPT?A:BERT(Encoder)双向注意力,理解任务;GPT(Decoder)单向注意力,生成任务。

实战题

Q:BERT 微调优化?A:分层学习率、权重衰减、对抗训练、更长序列截断、模型蒸馏。


面试总结

  1. 基础必牢:算法原理、损失函数、核心公式、结构差异是必考点。
  2. 工程导向 :面试官更关注调参、优化、落地场景、问题排查
  3. 对比思维:同类算法 / 模型横向对比(如 LR vs SVM、CNN vs Transformer)是高频题型。
  4. 实战经验:结合项目讲模型选型、踩坑与优化,加分拉满。

相关推荐
啊巴矲3 小时前
小白从零开始勇闯人工智能:深度学习汇总(复习大纲篇)
人工智能·深度学习
Zero3 小时前
机器学习线性代数--(10)基变换:在不同坐标系之间切换
线性代数·机器学习
糖果店的幽灵4 小时前
【大模型】大模型学习总结之机器学习-3.模型评估
人工智能·学习·机器学习
波波0074 小时前
每日一题:请解释.NET 中的泛型约束是什么
java·面试·.net
梦醒过后说珍重4 小时前
Python 工程化实战:如何将复杂的EndoMamba感知损失封装为“即插即用”的独立模块包
python·深度学习
CoovallyAIHub4 小时前
编码智能体做 CV 任务,实际能力到哪一步了?——五项视觉任务实测解读
深度学习·算法·计算机视觉
ZWZhangYu4 小时前
【Gradio系列】使用 Gradio 快速构建机器学习图像分类实战
人工智能·机器学习·分类
梦醒过后说珍重4 小时前
PyTorch 工程实践:如何优雅地将 ViT 大模型封装为即插即用的感知损失(Perceptual Loss)
python·深度学习
清风徐来QCQ4 小时前
redis 面试可能会问的问题
数据库·redis·面试