【模式识别与机器学习】机器学习练习题集

📝 使用说明：

题目按知识点分类，每个知识点包含不同难度的题目

⭐ 表示基础题，⭐⭐ 表示中等难度，⭐⭐⭐ 表示高难度

答案在每部分末尾，建议先做题再看答案

题目类型：单选题（A/B/C/D）、多选题（A/B/C/D/E）、判断题（√/×）

一、模式识别基础
二、机器学习基础
三、决策树
四、kNN
五、贝叶斯
六、逻辑回归
七、线性回归
八、进化计算
九、元学习
十、PCA
十一、AdaBoost
十二、数据类型分类-统计描述
十三、缺失值处理-属性选择转换
十四、离散化-数据清理
十五、聚类基本概念-K-means
十六、层次聚类-DBSCAN-离群点检测
十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析

一、模式识别基础

单选题

1. ⭐ 模式的定义是什么？

A. 事物的本质特征

B. 时空特征组合，用向量表示

C. 数据的统计特征

D. 算法的输出结果

2. ⭐ 模式具有哪三大特性？

A. 可观察性、可区分性、相似性

B. 准确性、可靠性、有效性

C. 完整性、一致性、正确性

D. 可扩展性、可维护性、可重用性

3. ⭐⭐ 模式识别过程的完整流程是？

A. 数据获取 → 预处理 → 分类决策

B. 数据获取 → 预处理 → 特征提取 → 分类决策

C. 数据获取 → 特征提取 → 分类决策

D. 预处理 → 特征提取 → 分类决策

4. ⭐⭐ 模式识别的主要方法不包括？

A. 数据聚类

B. 模版匹配

C. 神经网络

D. 线性规划

5. ⭐⭐⭐ 关于"没有免费的午餐"定理，下列说法正确的是？

A. 所有算法在所有问题上表现相同

B. 不存在在所有问题上都最优的算法

C. 简单算法总是比复杂算法好

D. 复杂算法总是比简单算法好

多选题

6. ⭐⭐ 模式的表示方法包括？

A. 向量表示

B. 矩阵表示

C. 图表示

D. 树表示

E. 字符串表示

7. ⭐⭐⭐ 模式识别面临的难点包括？

A. 非结构化数据多

B. 机器缺乏抽象能力

C. 数据质量问题

D. 计算资源有限

E. 算法复杂度高

判断题

8. ⭐ 模式就是事物本身。（）

9. ⭐⭐ 模式识别只需要分类，不需要模式发现和评估。（）

10. ⭐⭐⭐ 奥卡姆剃刀原理说明简单模型总是比复杂模型好。（）

二、机器学习基础

单选题

11. ⭐ 机器学习的本质是？

A. 编写程序解决问题

B. 通过数据学习提升能力

C. 存储大量数据

D. 执行复杂计算

12. ⭐ 监督学习、无监督学习、强化学习的主要区别是？

A. 数据量大小

B. 是否有标签数据

C. 算法复杂度

D. 计算速度

13. ⭐⭐ 经验风险最小化（ERM）的核心思想是？

A. 最小化训练误差

B. 最小化测试误差

C. 最小化期望风险

D. 用样本误差近似期望风险

14. ⭐⭐ 机器学习模型追求的核心能力是？

A. 训练准确率

B. 泛化能力

C. 计算速度

D. 模型复杂度

15. ⭐⭐⭐ 关于"一致性假设"，下列说法正确的是？

A. 训练数据和测试数据分布相同

B. 样本独立同分布

C. 模型参数不变

D. 特征空间不变

多选题

16. ⭐⭐ 机器学习的主要方法包括？

A. 监督学习

B. 无监督学习

C. 强化学习

D. 半监督学习

E. 迁移学习

17. ⭐⭐⭐ 机器学习面临的挑战包括？

A. 泛化能力

B. 速度

C. 可理解性

D. 数据利用

E. 代价敏感

判断题

18. ⭐ 机器学习就是人工智能。（）

19. ⭐⭐ 经验风险最小化一定能保证泛化能力。（）

20. ⭐⭐⭐ 黑箱模型比白箱模型总是更好。（）

三、决策树

单选题

21. ⭐ 决策树的基本思想是？

A. 线性划分

B. 递归划分输入空间

C. 概率建模

D. 距离计算

22. ⭐ ID3算法使用什么来选择分裂属性？

A. 信息增益

B. 增益率

C. 基尼系数

D. 方差

23. ⭐⭐ 信息增益的计算公式是？

A. G a i n ( A ) = E n t r o p y ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)−∑v=1V∣D∣∣Dv∣Entropy(Dv)

B. G a i n ( A ) = E n t r o p y ( D ) + ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) + \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)+∑v=1V∣D∣∣Dv∣Entropy(Dv)

C. G a i n ( A ) = E n t r o p y ( D ) × ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) \times \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)×∑v=1V∣D∣∣Dv∣Entropy(Dv)

D. G a i n ( A ) = E n t r o p y ( D ) / ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) / \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)/∑v=1V∣D∣∣Dv∣Entropy(Dv)

24. ⭐⭐ C4.5算法使用增益率是为了解决什么问题？

A. 计算复杂度

B. 信息增益偏向多值属性

C. 过拟合问题

D. 缺失值处理

25. ⭐⭐⭐ 关于决策树剪枝，下列说法正确的是？

A. 预剪枝总是比后剪枝好

B. 后剪枝总是比预剪枝好

C. 预剪枝可能欠拟合，后剪枝效果更好但计算量大

D. 剪枝不影响模型性能

多选题

26. ⭐⭐ 决策树的优点包括？

A. 直观易懂

B. 不需要领域知识

C. 处理高维数据快

D. 可解释性强

E. 不容易过拟合

27. ⭐⭐⭐ 决策树处理过拟合的方法包括？

A. 预剪枝

B. 后剪枝

C. 限制树的深度

D. 限制叶节点最小样本数

E. 增加训练数据

判断题

28. ⭐ 决策树是急切学习算法。（）

29. ⭐⭐ 信息增益越大，分类准确性提升越大。（）

30. ⭐⭐⭐ CART算法只能处理分类问题。（）

四、kNN

单选题

31. ⭐ kNN是什么类型的算法？

A. 急切学习

B. 惰性学习

C. 在线学习

D. 批量学习

32. ⭐ kNN的核心思想是？

A. 线性划分

B. 概率建模

C. 近朱者赤近墨者黑

D. 递归划分

33. ⭐⭐ 欧几里德距离的公式是？

A. d ( x i , x j ) = ∑ f = 1 p ∣ x i f − x j f ∣ d(x_i, x_j) = \sum_{f=1}^{p}|x_{if} - x_{jf}| d(xi,xj)=∑f=1p∣xif−xjf∣

B. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sqrt{\sum_{f=1}^{p}(x_{if} - x_{jf})^2} d(xi,xj)=∑f=1p(xif−xjf)2

C. d ( x i , x j ) = max ⁡ f ∣ x i f − x j f ∣ d(x_i, x_j) = \max_f|x_{if} - x_{jf}| d(xi,xj)=maxf∣xif−xjf∣

D. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sum_{f=1}^{p}(x_{if} - x_{jf})^2 d(xi,xj)=∑f=1p(xif−xjf)2

34. ⭐⭐ 关于k值选择，下列说法正确的是？

A. k越大越好

B. k越小越好

C. k太小易过拟合，k太大模型过于简单

D. k值不影响结果

35. ⭐⭐⭐ kD树的主要作用是？

A. 存储数据

B. 提高最近邻搜索效率

C. 减少存储空间

D. 提高分类准确率

多选题

36. ⭐⭐ kNN的距离度量方法包括？

A. 欧几里德距离

B. 曼哈顿距离

C. 切比雪夫距离

D. 闵可夫斯基距离

E. 余弦距离

37. ⭐⭐⭐ kNN的缺点包括？

A. 对噪声敏感

B. 计算慢

C. 需要存储所有训练样本

D. 对不平衡数据敏感

E. 高维数据效果差

判断题

38. ⭐ kNN在训练阶段需要构建模型。（）

39. ⭐⭐ kNN计算距离前不需要数据标准化。（）

40. ⭐⭐⭐ kNN可以处理任意形状的决策边界。（）

五、贝叶斯

单选题

41. ⭐ 贝叶斯公式是？

A. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P ( X ) P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)} P(C∣X)=P(X)P(X∣C)⋅P(C)

B. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P(C|X) = P(X|C) \cdot P(C) P(C∣X)=P(X∣C)⋅P(C)

C. P ( C ∣ X ) = P ( X ∣ C ) P ( X ) P(C|X) = \frac{P(X|C)}{P(X)} P(C∣X)=P(X)P(X∣C)

D. P ( C ∣ X ) = P ( C ) ⋅ P ( X ) P(C|X) = P(C) \cdot P(X) P(C∣X)=P(C)⋅P(X)

42. ⭐ 朴素贝叶斯的"朴素"假设是？

A. 所有特征独立

B. 所有特征条件独立

C. 所有特征相关

D. 所有特征相同

43. ⭐⭐ 先验概率、似然概率、后验概率的区别是？

A. 先验概率是观测数据前的判断，似然概率是给定类别下观测到数据的概率，后验概率是观测数据后的判断

B. 三者没有区别

C. 先验概率最大，后验概率最小

D. 似然概率最大，先验概率最小

44. ⭐⭐ 最小错误率决策和最小风险决策的区别是？

A. 最小错误率不考虑错误代价，最小风险考虑错误代价

B. 最小错误率考虑错误代价，最小风险不考虑错误代价

C. 两者没有区别

D. 最小错误率用于分类，最小风险用于回归

45. ⭐⭐⭐ 关于EM算法，下列说法正确的是？

A. EM算法只适用于有完整数据的情况

B. EM算法通过E步骤和M步骤迭代优化，适用于有隐藏变量的情况

C. EM算法不需要迭代

D. EM算法只适用于分类问题

多选题

46. ⭐⭐ 参数估计方法包括？

A. 最大似然估计（MLE）

B. 最大后验估计（MAP）

C. 贝叶斯参数估计

D. 最小二乘估计

E. 矩估计

47. ⭐⭐⭐ 朴素贝叶斯的优点包括？

A. 简单易懂

B. 训练速度快

C. 对小规模数据表现良好

D. 对噪声数据不敏感

E. 可以处理多分类问题

判断题

48. ⭐ 贝叶斯方法只能给出确定标签，不能给出概率值。（）

49. ⭐⭐ 朴素贝叶斯的条件独立性假设在现实中总是成立的。（）

50. ⭐⭐⭐ 如果某个属性值在训练数据中从未出现，朴素贝叶斯会使用平滑技术避免概率为0。（）

六、逻辑回归

单选题

51. ⭐ Sigmoid函数的作用是？

A. 将任意实数映射到[0,1]区间

B. 将任意实数映射到[-1,1]区间

C. 将任意实数映射到[0,∞)区间

D. 将任意实数映射到实数域

52. ⭐ 逻辑回归的损失函数是？

A. 均方误差

B. 交叉熵损失

C. 绝对值误差

D. 对数损失

53. ⭐⭐ 逻辑回归的决策边界是？

A. 非线性的

B. 线性的（ θ T x = 0 \theta^T x = 0 θTx=0）

C. 圆形的

D. 任意形状的

54. ⭐⭐ 梯度下降法中，学习率的作用是？

A. 控制参数更新的步长

B. 控制迭代次数

C. 控制模型复杂度

D. 控制数据量

55. ⭐⭐⭐ 关于梯度下降法的变体，下列说法正确的是？

A. 批量梯度下降最快但最不稳定

B. 随机梯度下降最稳定但最慢

C. 小批量梯度下降平衡速度和稳定性，最常用

D. 三种方法没有区别

多选题

56. ⭐⭐ 逻辑回归的优化方法包括？

A. 批量梯度下降（BGD）

B. 随机梯度下降（SGD）

C. 小批量梯度下降（MBGD）

D. 动量法

E. Adam算法

57. ⭐⭐⭐ 逻辑回归的缺点包括？

A. 只能处理线性决策边界

B. 对异常值敏感

C. 特征缺失时表现不好

D. 计算复杂度高

E. 需要大量数据

判断题

58. ⭐ 逻辑回归是回归算法，不是分类算法。（）

59. ⭐⭐ 逻辑回归对对数几率是线性的。（）

60. ⭐⭐⭐ 逻辑回归可以处理多分类问题，但需要特殊处理（One-vs-Rest或Softmax）。（）

七、线性回归

单选题

61. ⭐ 线性回归的基本模型是？

A. y = β 0 + β 1 x 1 + . . . + β D x D = x T β y = \beta_0 + \beta_1 x_1 + ... + \beta_D x_D = x^T \beta y=β0+β1x1+...+βDxD=xTβ

B. y = β 0 × β 1 x 1 × . . . × β D x D y = \beta_0 \times \beta_1 x_1 \times ... \times \beta_D x_D y=β0×β1x1×...×βDxD

C. y = β 0 + β 1 x 1 2 + . . . + β D x D 2 y = \beta_0 + \beta_1 x_1^2 + ... + \beta_D x_D^2 y=β0+β1x12+...+βDxD2

D. y = sin ⁡ ( β T x ) y = \sin(\beta^T x) y=sin(βTx)

62. ⭐ 最小二乘法的解析解是？

A. β ^ = ( Φ T Φ ) − 1 Φ T y \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y β^=(ΦTΦ)−1ΦTy

B. β ^ = Φ T y \hat{\beta} = \Phi^T y β^=ΦTy

C. β ^ = Φ y \hat{\beta} = \Phi y β^=Φy

D. β ^ = ( Φ T Φ ) Φ T y \hat{\beta} = (\Phi^T \Phi) \Phi^T y β^=(ΦTΦ)ΦTy

63. ⭐⭐ L1正则化（Lasso）和L2正则化（Ridge）的区别是？

A. L1让参数变小但不为0，L2可以让参数为0

B. L1可以让参数为0（特征选择），L2让参数变小但不为0

C. 两者没有区别

D. L1用于分类，L2用于回归

64. ⭐⭐ 关于过拟合，下列说法正确的是？

A. 模型在训练数据上表现好，在新数据上也表现好

B. 模型在训练数据上表现好，但在新数据上表现差

C. 模型在训练数据上表现差，在新数据上也表现差

D. 过拟合总是好的

65. ⭐⭐⭐ 当特征数量大于样本数时，最小二乘法会出现什么问题？

A. 计算速度慢

B. 矩阵 Φ T Φ \Phi^T\Phi ΦTΦ不可逆

C. 结果不准确

D. 没有影响

多选题

66. ⭐⭐ 线性回归的基函数的作用是？

A. 对输入特征进行非线性变换

B. 让线性回归处理非线性关系

C. 虽然对原始特征非线性，但对变换后的特征仍线性（对参数 β \beta β线性）

D. 减少特征数量

E. 提高计算速度

67. ⭐⭐⭐ 线性回归的缺点包括？

A. 假设线性关系

B. 对异常值敏感

C. 多重共线性问题

D. 需要大量数据

E. 计算复杂度高

判断题

68. ⭐ 线性回归只能处理线性关系。（）

69. ⭐⭐ 使用基函数可以让线性回归处理非线性关系。（）

70. ⭐⭐⭐ L1正则化可以实现自动特征选择。（）

八、进化计算

单选题

71. ⭐ 遗传算法的基本思想来源于？

A. 数学优化

B. 生物进化过程

C. 物理过程

D. 化学过程

72. ⭐ 遗传算法的五个要素不包括？

A. 编码方案

B. 初始种群

C. 适应度函数

D. 学习率

73. ⭐⭐ 遗传操作包括？

A. 选择、交叉、变异

B. 选择、交叉、学习

C. 交叉、变异、学习

D. 选择、变异、学习

74. ⭐⭐ 交叉操作的作用是？

A. 增加种群多样性

B. 组合父代基因产生子代

C. 随机改变基因

D. 选择优秀个体

75. ⭐⭐⭐ 遗传算法与进化策略的主要区别是？

A. 编码方式（位串编码vs实数串编码）

B. 优化能力

C. 适用问题（离散优化vs连续优化）

D. 以上都是

多选题

76. ⭐⭐ 遗传算法的应用场景包括？

A. 函数优化

B. 组合优化

C. 机器学习参数调优

D. 路径规划

E. 图像处理

77. ⭐⭐⭐ 遗传算法的缺点包括？

A. 收敛速度慢

B. 容易陷入局部最优

C. 参数设置复杂

D. 计算复杂度高

E. 结果不稳定

判断题

78. ⭐ 遗传算法保证找到全局最优解。（）

79. ⭐⭐ 变异操作可以增加种群多样性，防止过早收敛。（）

80. ⭐⭐⭐ 遗传算法适合处理高维连续优化问题。（）

九、元学习

单选题

81. ⭐ 元学习的核心思想是？

A. 使用单个学习器

B. 组合多个学习器提高性能

C. 使用深度学习

D. 使用强化学习

82. ⭐ Bagging和Boosting的主要区别是？

A. Bagging并行训练，Boosting顺序训练

B. Bagging顺序训练，Boosting并行训练

C. 两者没有区别

D. Bagging用于分类，Boosting用于回归

83. ⭐⭐ 随机森林是？

A. Bagging + 决策树 + 特征随机选择

B. Boosting + 决策树

C. 单个决策树

D. 神经网络

84. ⭐⭐ Stacking的核心思想是？

A. 简单投票

B. 使用元学习器学习如何组合基学习器

C. 平均预测结果

D. 选择最好的基学习器

85. ⭐⭐⭐ 关于基学习器差异性，下列说法正确的是？

A. 基学习器越相似越好

B. 基学习器差异性越大，最终组合学习器的学习效果越好

C. 差异性不影响结果

D. 只需要一个基学习器

多选题

86. ⭐⭐ 元学习方法包括？

A. Bagging

B. Boosting

C. 随机森林

D. Stacking

E. 投票法

87. ⭐⭐⭐ Bagging的优点包括？

A. 减少方差

B. 降低过拟合

C. 可以并行训练

D. 重点关注困难样本

E. 降低偏差

判断题

88. ⭐ 元学习就是使用多个相同的学习器。（）

89. ⭐⭐ Boosting可以并行训练多个基学习器。（）

90. ⭐⭐⭐ 随机森林不需要对决策树进行剪枝。（）

十、PCA

单选题

91. ⭐ PCA的主要作用是？

A. 分类

B. 聚类

C. 降维

D. 回归

92. ⭐ PCA的核心思想是？

A. 最小化方差

B. 最大化方差（寻找方差最大的投影方向）

C. 最小化距离

D. 最大化距离

93. ⭐⭐ PCA降维后，主成分之间是？

A. 相关的

B. 正交的（不相关）

C. 相同的

D. 随机的

94. ⭐⭐ PCA的适用场景是？

A. 数据维度高且存在相关性

B. 数据维度低

C. 数据没有相关性

D. 分类问题

95. ⭐⭐⭐ 关于PCA的局限性，下列说法正确的是？

A. PCA可以处理非线性关系

B. PCA假设数据是线性相关的

C. PCA不需要数据预处理

D. PCA可以处理缺失值

多选题

96. ⭐⭐ PCA的步骤包括？

A. 零均值化

B. 计算协方差矩阵

C. 特征值分解

D. 选择主成分

E. 投影到低维空间

97. ⭐⭐⭐ PCA的应用包括？

A. 数据可视化

B. 特征提取

C. 噪声去除

D. 数据压缩

E. 分类

判断题

98. ⭐ PCA可以保留数据的所有信息。（）

99. ⭐⭐ PCA降维后，主成分的方差是递减的。（）

100. ⭐⭐⭐ PCA可以用于分类问题的特征提取。（）

十一、AdaBoost

单选题

101. ⭐ AdaBoost的核心思想是？

A. 使用单个强分类器

B. 组合多个弱分类器形成强分类器

C. 使用深度学习

D. 使用强化学习

102. ⭐ AdaBoost中，分类器权重的计算公式是？

A. α = 1 2 ln ⁡ ( 1 − ε ε ) \alpha = \frac{1}{2}\ln(\frac{1-\varepsilon}{\varepsilon}) α=21ln(ε1−ε)

B. α = ε \alpha = \varepsilon α=ε

C. α = 1 − ε \alpha = 1 - \varepsilon α=1−ε

D. α = ε 1 − ε \alpha = \frac{\varepsilon}{1-\varepsilon} α=1−εε

103. ⭐⭐ 关于AdaBoost的权重调整，下列说法正确的是？

A. 错误分类的样本权重降低

B. 错误分类的样本权重提高（多关注）

C. 所有样本权重相同

D. 权重不影响结果

104. ⭐⭐ AdaBoost使用的弱分类器通常是？

A. 深度神经网络

B. 单层决策树（决策桩）

C. 随机森林

D. 支持向量机

105. ⭐⭐⭐ AdaBoost的缺点包括？

A. 对噪声敏感

B. 计算复杂度高

C. 无法并行化

D. 以上都是

多选题

106. ⭐⭐ AdaBoost的算法流程包括？

A. 初始化样本权重

B. 迭代训练弱分类器

C. 计算分类器权重

D. 更新样本权重

E. 组合所有分类器

107. ⭐⭐⭐ AdaBoost的适用场景包括？

A. 二分类问题

B. 数据质量较好

C. 计算资源充足

D. 需要可解释性

E. 噪声很大的数据

判断题

108. ⭐ AdaBoost可以并行训练多个弱分类器。（）

109. ⭐⭐ AdaBoost中，错误率越小的分类器权重越大。（）

110. ⭐⭐⭐ AdaBoost对噪声数据不敏感。（）

十二、数据类型分类-统计描述

单选题

111. ⭐ 三种数据类型是？

A. 结构化、半结构化、非结构化

B. 数值型、字符型、布尔型

C. 连续型、离散型、混合型

D. 训练数据、测试数据、验证数据

112. ⭐ 结构化数据的特点是？

A. 强约束，数据严格组织在二维表中

B. 弱约束，有一定结构但语义不确定

C. 无约束，数据杂乱无章

D. 没有固定格式

113. ⭐⭐ 中心趋势度量不包括？

A. 均值

B. 中位数

C. 众数

D. 方差

114. ⭐⭐ 数据散布度量包括？

A. 极差、分位数、方差、标准差

B. 均值、中位数、众数

C. 最大值、最小值

D. 总和、平均值

115. ⭐⭐⭐ 关于三种数据类型的区别，下列说法正确的是？

A. 核心区别是数据量大小

B. 核心区别是模式（schema）对数据的约束程度不同

C. 核心区别是存储方式

D. 没有区别

多选题

116. ⭐⭐ 中心趋势度量包括？

A. 均值

B. 中位数

C. 众数

D. 中位数（最大值和最小值的平均）

E. 方差

117. ⭐⭐⭐ 数据散布度量包括？

A. 极差

B. 分位数（四分位数、IQR）

C. 五数概括

D. 方差和标准差

E. 均值

判断题

118. ⭐ 半结构化数据用XML/JSON存储。（）

119. ⭐⭐ 均值对极端值敏感，中位数对倾斜数据更好。（）

120. ⭐⭐⭐ 非结构化数据易于提取和处理。（）

十三、缺失值处理-属性选择转换

单选题

121. ⭐ 缺失值处理方法不包括？

A. 忽略元组

B. 人工填写

C. 全局常量

D. 删除所有数据

122. ⭐ 有类别信息时，优先使用的缺失值处理方法是？

A. 全局常量

B. 均值/中位数

C. 同类样本统计量

D. 忽略元组

123. ⭐⭐ 属性选择方法不包括？

A. Filter方法

B. Wrapper方法

C. Embedded方法

D. Random方法

124. ⭐⭐ 属性转换包括？

A. 降维、规范化、特殊转换

B. 删除、添加、修改

C. 分类、聚类、回归

D. 训练、测试、验证

125. ⭐⭐⭐ 关于属性选择方法的选择，下列说法正确的是？

A. 大规模数据→Filter方法

B. 数据量适中且准确性要求高→Wrapper方法

C. 使用特定算法→Embedded方法

D. 以上都是

多选题

126. ⭐⭐ 缺失值处理方法包括？

A. 忽略元组（<5%且随机）

B. 人工填写（数据量小）

C. 全局常量（快速处理）

D. 均值/中位数（分布均匀）

E. 同类样本统计量（有类别信息）

127. ⭐⭐⭐ 属性选择的Filter方法特点包括？

A. 快速筛选

B. 独立于算法

C. 优化组合

D. 用算法评价

E. 算法内置

判断题

128. ⭐ 缺失值处理中，最可能值方法（预测模型）最准确。（）

129. ⭐⭐ Wrapper方法比Filter方法计算更快。（）

130. ⭐⭐⭐ 规范化可以消除不同属性量纲的影响。（）

十四、离散化-数据清理

单选题

131. ⭐ 数值属性离散化的作用是？

A. 将连续值转换为离散类别

B. 将离散值转换为连续值

C. 删除数据

D. 增加数据

132. ⭐ 无监督离散方法不包括？

A. 等值区间

B. 等频区间

C. 聚类

D. 基于熵的离散

133. ⭐⭐ 有监督离散方法包括？

A. 基于熵的离散

B. 基于误差的离散

C. 等值区间

D. A和B

134. ⭐⭐ 自动数据清理方法不包括？

A. 改进决策树

B. 稳健回归

C. 离群点检测

D. 删除所有数据

135. ⭐⭐⭐ 关于离散化策略，下列说法正确的是？

A. 局部离散优于全局离散

B. 全局离散优于局部离散

C. 有类别信息→无监督离散

D. 无类别信息→有监督离散

多选题

136. ⭐⭐ 无监督离散方法包括？

A. 等值区间

B. 等频区间

C. 聚类

D. 概念分层

E. 基于熵的离散

137. ⭐⭐⭐ 自动数据清理方法包括？

A. 改进决策树

B. 稳健回归（LMedS方法）

C. 离群点检测

D. 删除异常值

E. 数据增强

判断题

138. ⭐ 离散化可以提高算法的速度和可解释性。（）

139. ⭐⭐ 有类别信息时，有监督离散优于无监督离散。（）

140. ⭐⭐⭐ 稳健回归可以抵抗离群点的干扰。（）

十五、聚类基本概念-K-means

单选题

141. ⭐ 聚类分析是什么？

A. 监督学习方法

B. 无监督学习方法

C. 强化学习方法

D. 半监督学习方法

142. ⭐ 聚类的核心原则是？

A. 最大化簇内相似性，最小化簇间相似性

B. 最小化簇内相似性，最大化簇间相似性

C. 最大化簇内和簇间相似性

D. 最小化簇内和簇间相似性

143. ⭐⭐ K-means算法的第一步是？

A. 将对象分配到最近中心

B. 重新计算中心

C. 随机选择k个初始中心

D. 计算距离

144. ⭐⭐ K值选择方法不包括？

A. 肘部法则

B. 轮廓系数

C. 业务需求

D. 随机选择

145. ⭐⭐⭐ K-means算法的复杂度是？

A. O ( n ) O(n) O(n)

B. O ( n k ) O(nk) O(nk)

C. O ( n k t ) O(nkt) O(nkt)（n是对象数，k是簇数，t是迭代次数）

D. O ( n 2 ) O(n^2) O(n2)

多选题

146. ⭐⭐ K-means的优点包括？

A. 算法简单

B. 计算效率高

C. 结果直观

D. 不需要预先指定K值

E. 可以发现任意形状簇

147. ⭐⭐⭐ K-means的缺点包括？

A. 需要预先指定簇数k

B. 只能发现球状簇

C. 对离群点敏感

D. 初始中心选择影响结果

E. 容易陷入局部最优

判断题

148. ⭐ 聚类需要类标号数据。（）

149. ⭐⭐ K-means计算距离前不需要数据标准化。（）

150. ⭐⭐⭐ K-means只能发现球状簇，不能发现任意形状的簇。（）

十六、层次聚类-DBSCAN-离群点检测

单选题

151. ⭐ 层次聚类的主要特点是？

A. 需要预先指定簇数

B. 不需要预先指定簇数

C. 只能发现球状簇

D. 计算复杂度低

152. ⭐ DBSCAN的主要特点是？

A. 基于距离

B. 基于密度，可以发现任意形状的簇

C. 需要预先指定簇数

D. 只能发现球状簇

153. ⭐⭐ DBSCAN需要设置的参数是？

A. k值

B. ϵ \epsilon ϵ和MinPts

C. 学习率

D. 迭代次数

154. ⭐⭐ 离群点检测方法不包括？

A. 统计方法

B. 距离方法

C. 密度方法

D. 聚类方法

155. ⭐⭐⭐ 关于DBSCAN，下列说法正确的是？

A. DBSCAN对噪声不敏感

B. DBSCAN对噪声鲁棒，可以自动识别噪声点

C. DBSCAN需要预先指定簇数

D. DBSCAN只能发现球状簇

多选题

156. ⭐⭐ 层次聚类方法包括？

A. 凝聚层次聚类（自底向上合并）

B. 分裂层次聚类（自顶向下分裂）

C. K-means

D. DBSCAN

E. 基于网格的方法

157. ⭐⭐⭐ 离群点检测方法包括？

A. 统计方法（有分布假设）

B. 距离方法（简单但计算复杂度高）

C. 密度方法（可以发现局部离群点）

D. 偏差方法（需要定义行为模式）

E. 聚类方法

判断题

158. ⭐ 层次聚类适合大规模数据。（）

159. ⭐⭐ DBSCAN可以发现任意形状的簇。（）

160. ⭐⭐⭐ 离群点就是噪声，应该删除。（）

十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析

单选题

161. ⭐ 支持度的定义是？

A. Support ( X ) = ∣ { d ∈ D ∣ X ⊆ d } ∣ ∣ D ∣ \text{Support}(X) = \frac{|\{d \in D | X \subseteq d\}|}{|D|} Support(X)=∣D∣∣{d∈D∣X⊆d}∣

B. Support ( X ) = ∣ X ∣ \text{Support}(X) = |X| Support(X)=∣X∣

C. Support ( X ) = ∣ X ∣ ∣ D ∣ \text{Support}(X) = \frac{|X|}{|D|} Support(X)=∣D∣∣X∣

D. Support ( X ) = ∣ D ∣ \text{Support}(X) = |D| Support(X)=∣D∣

162. ⭐ 置信度的定义是？

A. Confidence ( X → Y ) = Support ( X ∪ Y ) Support ( X ) \text{Confidence}(X \rightarrow Y) = \frac{\text{Support}(X \cup Y)}{\text{Support}(X)} Confidence(X→Y)=Support(X)Support(X∪Y)

B. Confidence ( X → Y ) = Support ( X ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) Confidence(X→Y)=Support(X)

C. Confidence ( X → Y ) = Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(Y) Confidence(X→Y)=Support(Y)

D. Confidence ( X → Y ) = Support ( X ) + Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) + \text{Support}(Y) Confidence(X→Y)=Support(X)+Support(Y)

163. ⭐⭐ Apriori算法的核心原理是？

A. 先验原理（频繁项集的子集一定是频繁的）

B. 后验原理

C. 最大似然原理

D. 最小二乘原理

164. ⭐⭐ Apriori算法和FP-Growth算法的主要区别是？

A. Apriori需要多次扫描数据库，FP-Growth只需要扫描一次

B. FP-Growth需要多次扫描数据库，Apriori只需要扫描一次

C. 两者没有区别

D. Apriori用于分类，FP-Growth用于聚类

165. ⭐⭐⭐ 关于先验原理，下列说法正确的是？

A. 频繁项集的子集一定是频繁的（用于剪枝）

B. 非频繁项集的超集一定是非频繁的（用于减少候选）

C. 以上都是

D. 以上都不是

多选题

166. ⭐⭐ Apriori算法的步骤包括？

A. 扫描数据库，生成频繁1项集

B. 逐层生成频繁k项集

C. 候选项集生成和剪枝

D. 生成强关联规则

E. 只扫描一次数据库

167. ⭐⭐⭐ 关联规则挖掘的应用包括？

A. 购物篮分析

B. 商品推荐

C. 搭配销售

D. 市场分析

E. 分类问题

判断题

168. ⭐ 支持度衡量规则是否常见，置信度衡量规则是否可信。（）

169. ⭐⭐ Apriori算法适合频繁项集长度较长的场景。（）

170. ⭐⭐⭐ 高置信度不一定意味着因果关系，需要结合业务知识判断。（）

题目统计：

单选题：85题（每题1分）
多选题：34题（每题2分）
判断题：51题（每题1分）
总计：170题，204分

难度分布：

⭐ 基础题：约60题
⭐⭐ 中等题：约70题
⭐⭐⭐ 高难度题：约40题

使用建议：

先独立完成题目，不要直接看答案
完成后再对照答案和解析
对于错题，重点复习相关知识点
定期回顾，巩固记忆

【模式识别与机器学习】机器学习练习题集

目录

一、模式识别基础

单选题

多选题

判断题

二、机器学习基础

单选题

多选题

判断题

三、决策树

单选题

多选题

判断题

四、kNN

单选题

多选题

判断题

五、贝叶斯

单选题

多选题

判断题

六、逻辑回归

单选题

多选题

判断题

七、线性回归

单选题

多选题

判断题

八、进化计算

单选题

多选题

判断题

九、元学习

单选题

多选题

判断题

十、PCA

单选题

多选题

判断题

十一、AdaBoost

单选题

多选题

判断题

十二、数据类型分类-统计描述

单选题

多选题

判断题

十三、缺失值处理-属性选择转换

单选题

多选题

判断题

十四、离散化-数据清理

单选题

多选题

判断题

十五、聚类基本概念-K-means

单选题

多选题

判断题

十六、层次聚类-DBSCAN-离群点检测

单选题

多选题

判断题

十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析

单选题

多选题

判断题