机器学习试题总结

一.选择题

二.填空题

三.判断题

四.简答题

总结自以下试题：

(7 封私信) 机器学习笔试100题完全解析 - 知乎

机器学习【期末复习总结】------知识点和算法例题（详细整理）_机器学习期末-CSDN博客

(7 封私信) 武汉大学2025-2026第一学期机器学习期末考试试题（回忆版） - 知乎

一.选择题

答案：C

增加一个特征变量，如果这个特征有意义，Adjusted R-Square 就会增大，若这个特征是冗余特征，Adjusted R-Squared 就会减小。

深度学习中的激活函数需要具有哪些属性？（ABD）

A.计算简单

B.非线性

C.具有饱和区

D.几乎处处可微

（1）非线性：导数不能是常数。（2）几乎处处可微：sigmoid处处可微，ReLU仅在有限点处不可微）。（3）计算简单；（4）非饱和性：Sigmoid存在饱和区，存在梯度消失问题，后来提出了Relu。（5）单调性；（6）输出范围有限；（7）接近恒等变换；（8）参数少；（9）归一化，助力稳定训练。

关于Attention-based Model，下列说法正确的是（A）

A.相似度度量模型

B.是一种新的深度学习网络

C.是一种输入对输出的比例模型

D.都不对

Attention-based Model其实就是一个相似性的度量，当前的输入与目标状态越相似，那么在当前的输入的权重就会越大，说明当前的输出越依赖于当前的输入。

考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？（C）

A.把除了最后一层外所有的层都冻结，重新训练最后一层

B.对新数据重新训练整个模型

C.只对最后几层进行调参(fine tune)

D.对每一层模型进行评估，选择其中的少数来用

模型微调方法：

数据量少，数据相似度高：改最后几层或者只改输出层。

数据量少，数据相似度低：冻结一些，训练一些。

数据量大，数据相似度低：从头训练。

数据量大，数据相似度高：最理想。用预训练权重新训练。

下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的（）

在神经网络反向传播中，梯度从后往前传，梯度不断减小，最后变为零，此时，浅层的神经网络权重得不到更新，那么前面隐藏层的学习速率低于后面隐藏层的学习速率，即随着隐藏层数目的增加，分类准确率反而下降了。这种现象叫做梯度消失。梯度消失导致后层的权重更新的快，靠近输出层的权值更新相对正常，前层网络由于梯度传递不过去得不到更新。因此，靠近输入层的更新会变得很慢，导致靠近输入层的隐藏层权值几乎不变，接近于初始化的权值。这样在网络很深的时候，学习的速度很慢或者无法学习。D的学习速率最慢，因此是第一隐藏层。

以下关于深度神经网络的说法中错误的是（D）

A 使用梯度裁剪(gradient clipping)有助于减缓梯度爆炸问题

B 若batch size过小，batch normalization的效果会出现退化

C 在使用SGD训练时，若训练loss的变化逐渐平缓不再明显下降时，通常可以通过减小learning rate的方式使其再进一步下降

D 增大L2正则项的系数有助于减缓梯度消失问题

L2正则化用于降低模型复杂度，防止过拟合，不能缓解梯度消失。残差结构、合适的激活函数、梯度裁剪、BN、初始化等可以缓解梯度消失。

下列关于神经网络的叙述中，正确的是（B）

A 损失函数关于输入一定是非凸或非凹的

B 存在某种深度神经网络（至少一个隐藏层），使其每个局部最优解都是全局最优解

C 深度神经网络容易陷入局部最优解

D 以上选项都不对

神经网络容易陷入的是鞍部而不是局部最优解，在多维度的损失函数中局部最小点非常少。

图像挖掘中常用卷积神经网络作为基础结构，以下关于卷积操作（conv）和池化（ pooling）的说法正确的是？（A）

A conv基于平移不变性，pooling基于局部相关性

平移不变性：对于同一张图及其平移后的版本，都能输出同样的结果。

局部相关性：池化层利用局部相关性，对图像进行下采样，可以减少数据处理量同时保留有用信息，相当于图像压缩。

RNN中哪个做法能够更好处理梯度爆炸问题？（B）

A 用LSTM或GRU

B 梯度裁剪

C dropout

LSTM中有梯度累加，能够减轻梯度消失问题，但是会加剧梯度爆炸问题。最好的做法是限制梯度范围，进行梯度裁剪。

关于神经网络中经典使用的优化器，以下说法正确的是（D）

A Adam的收敛速度比RMSprop慢

B 相比于SGD或RMSprop等优化器，Adam的收敛效果是最好的

C 对于轻量级神经网络，使用Adam比使用RMSprop更合适

D 相比于Adam或RMSprop等优化器，SGD的收敛效果是最好的

SGD 能收敛到极小值，但用时比较长。如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。

有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程？（C）

A. 2x+y=4

B. x+2y=5

C. x+2y=3

D. 2x-y=0

对于两个点来说，最大间隔就是垂直平分线，因此求出垂直平分线即可。

关于 Logit 回归和 SVM 不正确的是？（A）

A. Logit回归目标函数是最小化后验概率

B. Logit回归可以用于预测事件发生概率的大小

C. SVM目标是结构风险最小化

D. SVM可以有效避免模型过拟合

Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。而最小化后验概率是朴素贝叶斯算法要做的。

（多选）以下说法中正确的是？（BD）

A. SVM对噪声(如来自其他分布的噪声样本)鲁棒

B. 在AdaBoost算法中,所有被分错的样本的权重更新比例相同

C. Boosting和Bagging都是组合多个分类器投票的方法，二者都是根据单个分类器的正确率决定其权重

D. 给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少

SVM本身对噪声具有一定的鲁棒性，但实验证明，是当噪声率低于一定水平的噪声对SVM没有太大影响，但随着噪声率的不断增加，分类器的识别率会降低。Bagging的各个预测函数没有权重，而Boosting是有权重的。

Bagging： 从原始数据集中通过自助采样（Bootstrap sampling） 产生多个子训练集，用每个子训练集独立训练一个基学习器。对于分类问题，对所有基学习器的预测结果进行投票；对于回归问题，对所有基学习器的预测结果取平均。

Boosting： 顺序训练一系列基学习器，每个学习器都针对前一个学习器的错误进行调整。

预测时，每个基学习器会根据其准确率/性能被赋予一个权重（通常性能越好，权重越大）。

最终预测 = 各基学习器预测结果的加权投票或加权求和。

（多选）以下哪个属于线性分类器最佳准则?（ACD）

A. 感知准则函数

B.贝叶斯分类

C.支持向量机

D.Fisher准则

线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。

感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。

支持向量机 ：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使期望泛化风险尽可能小。（使用核函数可解决非线性问题）

Fisher 准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化"广义瑞利商"。

假设在训练中我们突然遇到了一个问题，在几次循环之后，误差瞬间降低。你认为数据有问题，于是你画出了数据并且发现也许是数据的偏度过大造成了这个问题。你打算怎么做来处理这个问题？（D）

A. 对数据作归一化

B. 对数据取对数变化

C. 都不对

D. 对数据作主成分分析(PCA)和归一化

数据偏度过大时，直接归一化虽可统一尺度，但无法消除异常值影响；PCA 可通过主成分变换降低异常值和噪声的影响，并在降维过程中使数据分布更稳定，之后配合归一化能更有效地改善模型训练稳定性，避免梯度更新剧烈波动导致的误差骤降假象。

下面那个决策边界是神经网络生成的？（D）

以下哪个图是KNN算法的训练边界？（B）

KNN首先计算该样本与所有已知类别训练样本之间的距离，然后根据预设的K值，从训练集中找出距离最近的K个"邻居"，最后通过统计这K个邻居的类别，将其中出现次数最多的类别作为这个未知样本的预测类别。这个算法完全依赖于数据本身的分布，无需复杂的训练过程，但需要合理选择K值并进行有效的距离计算。K值的选择、距离度量、分类决策规则（一般为多数表决）是KNN的三个基本要素。KNN算法的训练边界一定不是直线。

下图显示，当开始训练时，误差一直很高，这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。为了避免这种情况，我们可以采取下面哪种策略？（A）

A 改变学习速率，比如一开始的几个训练周期不断更改学习速率

B 一开始将学习速率减小10倍，然后用动量项(momentum)

C 增加参数数目，这样神经网络就不会卡在局部最优处

D 其他都不对

最出名的降维算法是 PCA 和 t-SNE。将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？（B）

A、X_projected_PCA 在最近邻空间能得到解释

B、X_projected_tSNE 在最近邻空间能得到解释

C、两个都在最近邻空间能得到解释

D、两个都不能在最近邻空间得到解释

PCA：线性降维，目标是最大化投影后的方差，保持全局欧氏距离结构，但不专门保持局部邻域关系

t-SNE：非线性降维，专门优化保持局部邻域相似性（高维相似性转化为低维相似性的概率匹配），因此在降维后的空间中，近邻关系（局部结构） 是可信的，而远距离关系不一定可靠。

给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C1、C2 和 C3。现在 X 的所有值加 2（即 X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？（D）

A、D1= C1, D2 < C2, D3 > C3

B、D1 = C1, D2 > C2, D3 > C3

C、D1 = C1, D2 > C2, D3 < C3

D、D1 = C1, D2 < C2, D3 < C3

E、D1 = C1, D2 = C2, D3 = C3

特征之间的相关性系数不会因为特征加或减去一个数而改变。

以下对经典K-means聚类算法解释正确的是（C）

A、能自动识别类的个数,随机挑选初始点为中心点计算

B、能自动识别类的个数,不是随机挑选初始点为中心点计算

C、不能自动识别类的个数,随机挑选初始点为中心点计算

D、不能自动识别类的个数,不是随机挑选初始点为中心点计算

（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c个中心的距离，将该样本归到距离最短的中心所在的类；（3）利用均值等方法更新该类的中心值；（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。以上是KMeans（C均值）算法的具体步骤，可以看出，K-Mean不能自动确定聚类数量，需要人工事先设定 K 值，初次选择是随机的，最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选C。