（一）单选题

1.以下关于训练集、验证集和测试集说法不正确的是( )。

A:测试集是纯粹是用于测试模型泛化能力
B:训练集是用来训练以及评估模型性能

C:验证集用于调整模型参数

D:以上说法都不对

2.当数据分布不平衡时，我们可采取的措施不包括( )。

A:对数据分布较少的类别过采样

B:对数据分布较多的类别欠采样
C:对数据分布较多的类别赋予更大的权重

D:对数据分布较少的类别赋予更大的权重

3.假设有100张照片，其中，猫的照片有60张，狗的照片是40张。识别结果：TP=40，FN=20，FP=10，TN=30，则可以得到：( )。

A:Accuracy=0.8
B:Precision=0.8

C:Recall=0.8

D:以上都不对

4.关于数据规范化，下列说法中错误的是( )。

A:包含标准化和归一化
B:标准化在任何场景下受异常值的影响都很小

C:归一化利用了样本中的最大值和最小值

D:标准化实际上是将数据在样本的标准差上做了等比例的缩放操作

5.下列哪种方法可以用来缓解过拟合的产生：( )。

A:增加更多的特征
B:正则化

C:增加模型的复杂度

D:以上都是

6.以下关于ROC和PR曲线说法不正确的是 ( )。

A:ROC曲线兼顾正例与负例，PR曲线完全聚焦于正例

B:如果想测试不同类别分布下分类器性能的影响，ROC曲线更为适合

C:ROC曲线不会随着类别分布的改变而改变
D:类别不平衡问题中，ROC曲线比PR曲线估计效果要差

7.以下关于偏差(Bias)和方差(Variance)说法正确的是 ( )。

A:方差描述的是预测值与真实值之间的差别

B:偏差描述的是预测值的变化范围
C:获取更多的训练数据可解决高方差的问题

D:获取更多的特征能解决高方差的问题

8.关于L1正则化和L2正则化说法错误的是 ( )。

选项：

A:L1正则化的功能是使权重稀疏

B:L2正则化的功能是防止过拟合
C:L1正则化比L2正则化使用更广泛

D:L1正则化无法有效减低数据存储量

9.随着训练样本的数量越来越大，则该数据训练的模型将具有：( )。
A:低方差

B:高方差

C:相同方差

D:无法判断

10.随着训练样本的数量越来越大，则该数据训练的模型将具有：( )。

选项：

A:低偏差

B:高偏差
C:相同偏差

D:无法判断

11.关于特征选择，下列对Ridge回归和Lasso回归的说法正确的是：( )。

A:Ridge回归适用于特征选择
B:Lasso回归适用于特征选择

C:两个都适用于特征选择

D:以上说法都不对

12.一个正负样本不平衡问题(正样本99%，负样本 1%)。假如在这个非平衡的数据集上建立一个模型，得到训练样本的正确率是 99%，则下列说法正确的是？( )

A:模型正确率很高，不需要优化模型了
B:模型正确率并不能反映模型的真实效果

C:无法对模型做出好坏评价

D:以上说法都不对

（二）多选题

1.以下关于交叉验证说法正确的是 ( )。
A:交叉验证可利用模型选择避免过拟合的情况
B:交叉验证可对模型性能合理评估
C:交叉验证大大增加了计算量

D:以上说法都不对

2.评价指标中，精确率(Precision)的计算需要哪些数值 ( )。

选项：
A:TP

B:TN
C:FP

D:FN

3.评价指标中，召回率(Recall)的计算需要哪些数值 ( )。

选项：
A:TP

B:TN

C:FP
D:FN

4.评估完模型之后，发现模型存在高偏差(high bias)，应该如何解决？( )

选项：

A:减少模型的特征数量
B:增加模型的特征数量

C:增加样本数量
D:尝试减少正则化系数

（三）判断题

1.特征空间越大，过拟合的可能性越大。

答案: 【正确】

2.L2 正则化得到的解更加稀疏。

答案: 【错误】

3.SMOTE算法是用了上采样的方法。

答案: 【正确】

4.100万条数据划分训练集、验证集、测试集，数据可以这样划分：98%，1%，1% 。

答案: 【正确】

机器学习课后习题 --- 机器学习实践

（一）单选题

（二） 多选题

（三）判断题

（二）多选题