【模式识别与机器学习】机器学习练习题集

📝 使用说明

  • 题目按知识点分类,每个知识点包含不同难度的题目
  • ⭐ 表示基础题,⭐⭐ 表示中等难度,⭐⭐⭐ 表示高难度
  • 答案在每部分末尾,建议先做题再看答案
  • 题目类型:单选题(A/B/C/D)、多选题(A/B/C/D/E)、判断题(√/×)

目录


一、模式识别基础

单选题

1. ⭐ 模式的定义是什么?

A. 事物的本质特征

B. 时空特征组合,用向量表示

C. 数据的统计特征

D. 算法的输出结果

2. ⭐ 模式具有哪三大特性?

A. 可观察性、可区分性、相似性

B. 准确性、可靠性、有效性

C. 完整性、一致性、正确性

D. 可扩展性、可维护性、可重用性

3. ⭐⭐ 模式识别过程的完整流程是?

A. 数据获取 → 预处理 → 分类决策

B. 数据获取 → 预处理 → 特征提取 → 分类决策

C. 数据获取 → 特征提取 → 分类决策

D. 预处理 → 特征提取 → 分类决策

4. ⭐⭐ 模式识别的主要方法不包括?

A. 数据聚类

B. 模版匹配

C. 神经网络

D. 线性规划

5. ⭐⭐⭐ 关于"没有免费的午餐"定理,下列说法正确的是?

A. 所有算法在所有问题上表现相同

B. 不存在在所有问题上都最优的算法

C. 简单算法总是比复杂算法好

D. 复杂算法总是比简单算法好

多选题

6. ⭐⭐ 模式的表示方法包括?

A. 向量表示

B. 矩阵表示

C. 图表示

D. 树表示

E. 字符串表示

7. ⭐⭐⭐ 模式识别面临的难点包括?

A. 非结构化数据多

B. 机器缺乏抽象能力

C. 数据质量问题

D. 计算资源有限

E. 算法复杂度高

判断题

8. ⭐ 模式就是事物本身。( )

9. ⭐⭐ 模式识别只需要分类,不需要模式发现和评估。( )

10. ⭐⭐⭐ 奥卡姆剃刀原理说明简单模型总是比复杂模型好。( )


二、机器学习基础

单选题

11. ⭐ 机器学习的本质是?

A. 编写程序解决问题

B. 通过数据学习提升能力

C. 存储大量数据

D. 执行复杂计算

12. ⭐ 监督学习、无监督学习、强化学习的主要区别是?

A. 数据量大小

B. 是否有标签数据

C. 算法复杂度

D. 计算速度

13. ⭐⭐ 经验风险最小化(ERM)的核心思想是?

A. 最小化训练误差

B. 最小化测试误差

C. 最小化期望风险

D. 用样本误差近似期望风险

14. ⭐⭐ 机器学习模型追求的核心能力是?

A. 训练准确率

B. 泛化能力

C. 计算速度

D. 模型复杂度

15. ⭐⭐⭐ 关于"一致性假设",下列说法正确的是?

A. 训练数据和测试数据分布相同

B. 样本独立同分布

C. 模型参数不变

D. 特征空间不变

多选题

16. ⭐⭐ 机器学习的主要方法包括?

A. 监督学习

B. 无监督学习

C. 强化学习

D. 半监督学习

E. 迁移学习

17. ⭐⭐⭐ 机器学习面临的挑战包括?

A. 泛化能力

B. 速度

C. 可理解性

D. 数据利用

E. 代价敏感

判断题

18. ⭐ 机器学习就是人工智能。( )

19. ⭐⭐ 经验风险最小化一定能保证泛化能力。( )

20. ⭐⭐⭐ 黑箱模型比白箱模型总是更好。( )


三、决策树

单选题

21. ⭐ 决策树的基本思想是?

A. 线性划分

B. 递归划分输入空间

C. 概率建模

D. 距离计算

22. ⭐ ID3算法使用什么来选择分裂属性?

A. 信息增益

B. 增益率

C. 基尼系数

D. 方差

23. ⭐⭐ 信息增益的计算公式是?

A. G a i n ( A ) = E n t r o p y ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)−∑v=1V∣D∣∣Dv∣Entropy(Dv)

B. G a i n ( A ) = E n t r o p y ( D ) + ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) + \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)+∑v=1V∣D∣∣Dv∣Entropy(Dv)

C. G a i n ( A ) = E n t r o p y ( D ) × ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) \times \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)×∑v=1V∣D∣∣Dv∣Entropy(Dv)

D. G a i n ( A ) = E n t r o p y ( D ) / ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) / \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)/∑v=1V∣D∣∣Dv∣Entropy(Dv)

24. ⭐⭐ C4.5算法使用增益率是为了解决什么问题?

A. 计算复杂度

B. 信息增益偏向多值属性

C. 过拟合问题

D. 缺失值处理

25. ⭐⭐⭐ 关于决策树剪枝,下列说法正确的是?

A. 预剪枝总是比后剪枝好

B. 后剪枝总是比预剪枝好

C. 预剪枝可能欠拟合,后剪枝效果更好但计算量大

D. 剪枝不影响模型性能

多选题

26. ⭐⭐ 决策树的优点包括?

A. 直观易懂

B. 不需要领域知识

C. 处理高维数据快

D. 可解释性强

E. 不容易过拟合

27. ⭐⭐⭐ 决策树处理过拟合的方法包括?

A. 预剪枝

B. 后剪枝

C. 限制树的深度

D. 限制叶节点最小样本数

E. 增加训练数据

判断题

28. ⭐ 决策树是急切学习算法。( )

29. ⭐⭐ 信息增益越大,分类准确性提升越大。( )

30. ⭐⭐⭐ CART算法只能处理分类问题。( )


四、kNN

单选题

31. ⭐ kNN是什么类型的算法?

A. 急切学习

B. 惰性学习

C. 在线学习

D. 批量学习

32. ⭐ kNN的核心思想是?

A. 线性划分

B. 概率建模

C. 近朱者赤近墨者黑

D. 递归划分

33. ⭐⭐ 欧几里德距离的公式是?

A. d ( x i , x j ) = ∑ f = 1 p ∣ x i f − x j f ∣ d(x_i, x_j) = \sum_{f=1}^{p}|x_{if} - x_{jf}| d(xi,xj)=∑f=1p∣xif−xjf∣

B. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sqrt{\sum_{f=1}^{p}(x_{if} - x_{jf})^2} d(xi,xj)=∑f=1p(xif−xjf)2

C. d ( x i , x j ) = max ⁡ f ∣ x i f − x j f ∣ d(x_i, x_j) = \max_f|x_{if} - x_{jf}| d(xi,xj)=maxf∣xif−xjf∣

D. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sum_{f=1}^{p}(x_{if} - x_{jf})^2 d(xi,xj)=∑f=1p(xif−xjf)2

34. ⭐⭐ 关于k值选择,下列说法正确的是?

A. k越大越好

B. k越小越好

C. k太小易过拟合,k太大模型过于简单

D. k值不影响结果

35. ⭐⭐⭐ kD树的主要作用是?

A. 存储数据

B. 提高最近邻搜索效率

C. 减少存储空间

D. 提高分类准确率

多选题

36. ⭐⭐ kNN的距离度量方法包括?

A. 欧几里德距离

B. 曼哈顿距离

C. 切比雪夫距离

D. 闵可夫斯基距离

E. 余弦距离

37. ⭐⭐⭐ kNN的缺点包括?

A. 对噪声敏感

B. 计算慢

C. 需要存储所有训练样本

D. 对不平衡数据敏感

E. 高维数据效果差

判断题

38. ⭐ kNN在训练阶段需要构建模型。( )

39. ⭐⭐ kNN计算距离前不需要数据标准化。( )

40. ⭐⭐⭐ kNN可以处理任意形状的决策边界。( )


五、贝叶斯

单选题

41. ⭐ 贝叶斯公式是?

A. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P ( X ) P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)} P(C∣X)=P(X)P(X∣C)⋅P(C)

B. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P(C|X) = P(X|C) \cdot P(C) P(C∣X)=P(X∣C)⋅P(C)

C. P ( C ∣ X ) = P ( X ∣ C ) P ( X ) P(C|X) = \frac{P(X|C)}{P(X)} P(C∣X)=P(X)P(X∣C)

D. P ( C ∣ X ) = P ( C ) ⋅ P ( X ) P(C|X) = P(C) \cdot P(X) P(C∣X)=P(C)⋅P(X)

42. ⭐ 朴素贝叶斯的"朴素"假设是?

A. 所有特征独立

B. 所有特征条件独立

C. 所有特征相关

D. 所有特征相同

43. ⭐⭐ 先验概率、似然概率、后验概率的区别是?

A. 先验概率是观测数据前的判断,似然概率是给定类别下观测到数据的概率,后验概率是观测数据后的判断

B. 三者没有区别

C. 先验概率最大,后验概率最小

D. 似然概率最大,先验概率最小

44. ⭐⭐ 最小错误率决策和最小风险决策的区别是?

A. 最小错误率不考虑错误代价,最小风险考虑错误代价

B. 最小错误率考虑错误代价,最小风险不考虑错误代价

C. 两者没有区别

D. 最小错误率用于分类,最小风险用于回归

45. ⭐⭐⭐ 关于EM算法,下列说法正确的是?

A. EM算法只适用于有完整数据的情况

B. EM算法通过E步骤和M步骤迭代优化,适用于有隐藏变量的情况

C. EM算法不需要迭代

D. EM算法只适用于分类问题

多选题

46. ⭐⭐ 参数估计方法包括?

A. 最大似然估计(MLE)

B. 最大后验估计(MAP)

C. 贝叶斯参数估计

D. 最小二乘估计

E. 矩估计

47. ⭐⭐⭐ 朴素贝叶斯的优点包括?

A. 简单易懂

B. 训练速度快

C. 对小规模数据表现良好

D. 对噪声数据不敏感

E. 可以处理多分类问题

判断题

48. ⭐ 贝叶斯方法只能给出确定标签,不能给出概率值。( )

49. ⭐⭐ 朴素贝叶斯的条件独立性假设在现实中总是成立的。( )

50. ⭐⭐⭐ 如果某个属性值在训练数据中从未出现,朴素贝叶斯会使用平滑技术避免概率为0。( )


六、逻辑回归

单选题

51. ⭐ Sigmoid函数的作用是?

A. 将任意实数映射到[0,1]区间

B. 将任意实数映射到[-1,1]区间

C. 将任意实数映射到[0,∞)区间

D. 将任意实数映射到实数域

52. ⭐ 逻辑回归的损失函数是?

A. 均方误差

B. 交叉熵损失

C. 绝对值误差

D. 对数损失

53. ⭐⭐ 逻辑回归的决策边界是?

A. 非线性的

B. 线性的( θ T x = 0 \theta^T x = 0 θTx=0)

C. 圆形的

D. 任意形状的

54. ⭐⭐ 梯度下降法中,学习率的作用是?

A. 控制参数更新的步长

B. 控制迭代次数

C. 控制模型复杂度

D. 控制数据量

55. ⭐⭐⭐ 关于梯度下降法的变体,下列说法正确的是?

A. 批量梯度下降最快但最不稳定

B. 随机梯度下降最稳定但最慢

C. 小批量梯度下降平衡速度和稳定性,最常用

D. 三种方法没有区别

多选题

56. ⭐⭐ 逻辑回归的优化方法包括?

A. 批量梯度下降(BGD)

B. 随机梯度下降(SGD)

C. 小批量梯度下降(MBGD)

D. 动量法

E. Adam算法

57. ⭐⭐⭐ 逻辑回归的缺点包括?

A. 只能处理线性决策边界

B. 对异常值敏感

C. 特征缺失时表现不好

D. 计算复杂度高

E. 需要大量数据

判断题

58. ⭐ 逻辑回归是回归算法,不是分类算法。( )

59. ⭐⭐ 逻辑回归对对数几率是线性的。( )

60. ⭐⭐⭐ 逻辑回归可以处理多分类问题,但需要特殊处理(One-vs-Rest或Softmax)。( )


七、线性回归

单选题

61. ⭐ 线性回归的基本模型是?

A. y = β 0 + β 1 x 1 + . . . + β D x D = x T β y = \beta_0 + \beta_1 x_1 + ... + \beta_D x_D = x^T \beta y=β0+β1x1+...+βDxD=xTβ

B. y = β 0 × β 1 x 1 × . . . × β D x D y = \beta_0 \times \beta_1 x_1 \times ... \times \beta_D x_D y=β0×β1x1×...×βDxD

C. y = β 0 + β 1 x 1 2 + . . . + β D x D 2 y = \beta_0 + \beta_1 x_1^2 + ... + \beta_D x_D^2 y=β0+β1x12+...+βDxD2

D. y = sin ⁡ ( β T x ) y = \sin(\beta^T x) y=sin(βTx)

62. ⭐ 最小二乘法的解析解是?

A. β ^ = ( Φ T Φ ) − 1 Φ T y \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y β^=(ΦTΦ)−1ΦTy

B. β ^ = Φ T y \hat{\beta} = \Phi^T y β^=ΦTy

C. β ^ = Φ y \hat{\beta} = \Phi y β^=Φy

D. β ^ = ( Φ T Φ ) Φ T y \hat{\beta} = (\Phi^T \Phi) \Phi^T y β^=(ΦTΦ)ΦTy

63. ⭐⭐ L1正则化(Lasso)和L2正则化(Ridge)的区别是?

A. L1让参数变小但不为0,L2可以让参数为0

B. L1可以让参数为0(特征选择),L2让参数变小但不为0

C. 两者没有区别

D. L1用于分类,L2用于回归

64. ⭐⭐ 关于过拟合,下列说法正确的是?

A. 模型在训练数据上表现好,在新数据上也表现好

B. 模型在训练数据上表现好,但在新数据上表现差

C. 模型在训练数据上表现差,在新数据上也表现差

D. 过拟合总是好的

65. ⭐⭐⭐ 当特征数量大于样本数时,最小二乘法会出现什么问题?

A. 计算速度慢

B. 矩阵 Φ T Φ \Phi^T\Phi ΦTΦ不可逆

C. 结果不准确

D. 没有影响

多选题

66. ⭐⭐ 线性回归的基函数的作用是?

A. 对输入特征进行非线性变换

B. 让线性回归处理非线性关系

C. 虽然对原始特征非线性,但对变换后的特征仍线性(对参数 β \beta β线性)

D. 减少特征数量

E. 提高计算速度

67. ⭐⭐⭐ 线性回归的缺点包括?

A. 假设线性关系

B. 对异常值敏感

C. 多重共线性问题

D. 需要大量数据

E. 计算复杂度高

判断题

68. ⭐ 线性回归只能处理线性关系。( )

69. ⭐⭐ 使用基函数可以让线性回归处理非线性关系。( )

70. ⭐⭐⭐ L1正则化可以实现自动特征选择。( )


八、进化计算

单选题

71. ⭐ 遗传算法的基本思想来源于?

A. 数学优化

B. 生物进化过程

C. 物理过程

D. 化学过程

72. ⭐ 遗传算法的五个要素不包括?

A. 编码方案

B. 初始种群

C. 适应度函数

D. 学习率

73. ⭐⭐ 遗传操作包括?

A. 选择、交叉、变异

B. 选择、交叉、学习

C. 交叉、变异、学习

D. 选择、变异、学习

74. ⭐⭐ 交叉操作的作用是?

A. 增加种群多样性

B. 组合父代基因产生子代

C. 随机改变基因

D. 选择优秀个体

75. ⭐⭐⭐ 遗传算法与进化策略的主要区别是?

A. 编码方式(位串编码vs实数串编码)

B. 优化能力

C. 适用问题(离散优化vs连续优化)

D. 以上都是

多选题

76. ⭐⭐ 遗传算法的应用场景包括?

A. 函数优化

B. 组合优化

C. 机器学习参数调优

D. 路径规划

E. 图像处理

77. ⭐⭐⭐ 遗传算法的缺点包括?

A. 收敛速度慢

B. 容易陷入局部最优

C. 参数设置复杂

D. 计算复杂度高

E. 结果不稳定

判断题

78. ⭐ 遗传算法保证找到全局最优解。( )

79. ⭐⭐ 变异操作可以增加种群多样性,防止过早收敛。( )

80. ⭐⭐⭐ 遗传算法适合处理高维连续优化问题。( )


九、元学习

单选题

81. ⭐ 元学习的核心思想是?

A. 使用单个学习器

B. 组合多个学习器提高性能

C. 使用深度学习

D. 使用强化学习

82. ⭐ Bagging和Boosting的主要区别是?

A. Bagging并行训练,Boosting顺序训练

B. Bagging顺序训练,Boosting并行训练

C. 两者没有区别

D. Bagging用于分类,Boosting用于回归

83. ⭐⭐ 随机森林是?

A. Bagging + 决策树 + 特征随机选择

B. Boosting + 决策树

C. 单个决策树

D. 神经网络

84. ⭐⭐ Stacking的核心思想是?

A. 简单投票

B. 使用元学习器学习如何组合基学习器

C. 平均预测结果

D. 选择最好的基学习器

85. ⭐⭐⭐ 关于基学习器差异性,下列说法正确的是?

A. 基学习器越相似越好

B. 基学习器差异性越大,最终组合学习器的学习效果越好

C. 差异性不影响结果

D. 只需要一个基学习器

多选题

86. ⭐⭐ 元学习方法包括?

A. Bagging

B. Boosting

C. 随机森林

D. Stacking

E. 投票法

87. ⭐⭐⭐ Bagging的优点包括?

A. 减少方差

B. 降低过拟合

C. 可以并行训练

D. 重点关注困难样本

E. 降低偏差

判断题

88. ⭐ 元学习就是使用多个相同的学习器。( )

89. ⭐⭐ Boosting可以并行训练多个基学习器。( )

90. ⭐⭐⭐ 随机森林不需要对决策树进行剪枝。( )


十、PCA

单选题

91. ⭐ PCA的主要作用是?

A. 分类

B. 聚类

C. 降维

D. 回归

92. ⭐ PCA的核心思想是?

A. 最小化方差

B. 最大化方差(寻找方差最大的投影方向)

C. 最小化距离

D. 最大化距离

93. ⭐⭐ PCA降维后,主成分之间是?

A. 相关的

B. 正交的(不相关)

C. 相同的

D. 随机的

94. ⭐⭐ PCA的适用场景是?

A. 数据维度高且存在相关性

B. 数据维度低

C. 数据没有相关性

D. 分类问题

95. ⭐⭐⭐ 关于PCA的局限性,下列说法正确的是?

A. PCA可以处理非线性关系

B. PCA假设数据是线性相关的

C. PCA不需要数据预处理

D. PCA可以处理缺失值

多选题

96. ⭐⭐ PCA的步骤包括?

A. 零均值化

B. 计算协方差矩阵

C. 特征值分解

D. 选择主成分

E. 投影到低维空间

97. ⭐⭐⭐ PCA的应用包括?

A. 数据可视化

B. 特征提取

C. 噪声去除

D. 数据压缩

E. 分类

判断题

98. ⭐ PCA可以保留数据的所有信息。( )

99. ⭐⭐ PCA降维后,主成分的方差是递减的。( )

100. ⭐⭐⭐ PCA可以用于分类问题的特征提取。( )


十一、AdaBoost

单选题

101. ⭐ AdaBoost的核心思想是?

A. 使用单个强分类器

B. 组合多个弱分类器形成强分类器

C. 使用深度学习

D. 使用强化学习

102. ⭐ AdaBoost中,分类器权重的计算公式是?

A. α = 1 2 ln ⁡ ( 1 − ε ε ) \alpha = \frac{1}{2}\ln(\frac{1-\varepsilon}{\varepsilon}) α=21ln(ε1−ε)

B. α = ε \alpha = \varepsilon α=ε

C. α = 1 − ε \alpha = 1 - \varepsilon α=1−ε

D. α = ε 1 − ε \alpha = \frac{\varepsilon}{1-\varepsilon} α=1−εε

103. ⭐⭐ 关于AdaBoost的权重调整,下列说法正确的是?

A. 错误分类的样本权重降低

B. 错误分类的样本权重提高(多关注)

C. 所有样本权重相同

D. 权重不影响结果

104. ⭐⭐ AdaBoost使用的弱分类器通常是?

A. 深度神经网络

B. 单层决策树(决策桩)

C. 随机森林

D. 支持向量机

105. ⭐⭐⭐ AdaBoost的缺点包括?

A. 对噪声敏感

B. 计算复杂度高

C. 无法并行化

D. 以上都是

多选题

106. ⭐⭐ AdaBoost的算法流程包括?

A. 初始化样本权重

B. 迭代训练弱分类器

C. 计算分类器权重

D. 更新样本权重

E. 组合所有分类器

107. ⭐⭐⭐ AdaBoost的适用场景包括?

A. 二分类问题

B. 数据质量较好

C. 计算资源充足

D. 需要可解释性

E. 噪声很大的数据

判断题

108. ⭐ AdaBoost可以并行训练多个弱分类器。( )

109. ⭐⭐ AdaBoost中,错误率越小的分类器权重越大。( )

110. ⭐⭐⭐ AdaBoost对噪声数据不敏感。( )


十二、数据类型分类-统计描述

单选题

111. ⭐ 三种数据类型是?

A. 结构化、半结构化、非结构化

B. 数值型、字符型、布尔型

C. 连续型、离散型、混合型

D. 训练数据、测试数据、验证数据

112. ⭐ 结构化数据的特点是?

A. 强约束,数据严格组织在二维表中

B. 弱约束,有一定结构但语义不确定

C. 无约束,数据杂乱无章

D. 没有固定格式

113. ⭐⭐ 中心趋势度量不包括?

A. 均值

B. 中位数

C. 众数

D. 方差

114. ⭐⭐ 数据散布度量包括?

A. 极差、分位数、方差、标准差

B. 均值、中位数、众数

C. 最大值、最小值

D. 总和、平均值

115. ⭐⭐⭐ 关于三种数据类型的区别,下列说法正确的是?

A. 核心区别是数据量大小

B. 核心区别是模式(schema)对数据的约束程度不同

C. 核心区别是存储方式

D. 没有区别

多选题

116. ⭐⭐ 中心趋势度量包括?

A. 均值

B. 中位数

C. 众数

D. 中位数(最大值和最小值的平均)

E. 方差

117. ⭐⭐⭐ 数据散布度量包括?

A. 极差

B. 分位数(四分位数、IQR)

C. 五数概括

D. 方差和标准差

E. 均值

判断题

118. ⭐ 半结构化数据用XML/JSON存储。( )

119. ⭐⭐ 均值对极端值敏感,中位数对倾斜数据更好。( )

120. ⭐⭐⭐ 非结构化数据易于提取和处理。( )


十三、缺失值处理-属性选择转换

单选题

121. ⭐ 缺失值处理方法不包括?

A. 忽略元组

B. 人工填写

C. 全局常量

D. 删除所有数据

122. ⭐ 有类别信息时,优先使用的缺失值处理方法是?

A. 全局常量

B. 均值/中位数

C. 同类样本统计量

D. 忽略元组

123. ⭐⭐ 属性选择方法不包括?

A. Filter方法

B. Wrapper方法

C. Embedded方法

D. Random方法

124. ⭐⭐ 属性转换包括?

A. 降维、规范化、特殊转换

B. 删除、添加、修改

C. 分类、聚类、回归

D. 训练、测试、验证

125. ⭐⭐⭐ 关于属性选择方法的选择,下列说法正确的是?

A. 大规模数据→Filter方法

B. 数据量适中且准确性要求高→Wrapper方法

C. 使用特定算法→Embedded方法

D. 以上都是

多选题

126. ⭐⭐ 缺失值处理方法包括?

A. 忽略元组(<5%且随机)

B. 人工填写(数据量小)

C. 全局常量(快速处理)

D. 均值/中位数(分布均匀)

E. 同类样本统计量(有类别信息)

127. ⭐⭐⭐ 属性选择的Filter方法特点包括?

A. 快速筛选

B. 独立于算法

C. 优化组合

D. 用算法评价

E. 算法内置

判断题

128. ⭐ 缺失值处理中,最可能值方法(预测模型)最准确。( )

129. ⭐⭐ Wrapper方法比Filter方法计算更快。( )

130. ⭐⭐⭐ 规范化可以消除不同属性量纲的影响。( )


十四、离散化-数据清理

单选题

131. ⭐ 数值属性离散化的作用是?

A. 将连续值转换为离散类别

B. 将离散值转换为连续值

C. 删除数据

D. 增加数据

132. ⭐ 无监督离散方法不包括?

A. 等值区间

B. 等频区间

C. 聚类

D. 基于熵的离散

133. ⭐⭐ 有监督离散方法包括?

A. 基于熵的离散

B. 基于误差的离散

C. 等值区间

D. A和B

134. ⭐⭐ 自动数据清理方法不包括?

A. 改进决策树

B. 稳健回归

C. 离群点检测

D. 删除所有数据

135. ⭐⭐⭐ 关于离散化策略,下列说法正确的是?

A. 局部离散优于全局离散

B. 全局离散优于局部离散

C. 有类别信息→无监督离散

D. 无类别信息→有监督离散

多选题

136. ⭐⭐ 无监督离散方法包括?

A. 等值区间

B. 等频区间

C. 聚类

D. 概念分层

E. 基于熵的离散

137. ⭐⭐⭐ 自动数据清理方法包括?

A. 改进决策树

B. 稳健回归(LMedS方法)

C. 离群点检测

D. 删除异常值

E. 数据增强

判断题

138. ⭐ 离散化可以提高算法的速度和可解释性。( )

139. ⭐⭐ 有类别信息时,有监督离散优于无监督离散。( )

140. ⭐⭐⭐ 稳健回归可以抵抗离群点的干扰。( )


十五、聚类基本概念-K-means

单选题

141. ⭐ 聚类分析是什么?

A. 监督学习方法

B. 无监督学习方法

C. 强化学习方法

D. 半监督学习方法

142. ⭐ 聚类的核心原则是?

A. 最大化簇内相似性,最小化簇间相似性

B. 最小化簇内相似性,最大化簇间相似性

C. 最大化簇内和簇间相似性

D. 最小化簇内和簇间相似性

143. ⭐⭐ K-means算法的第一步是?

A. 将对象分配到最近中心

B. 重新计算中心

C. 随机选择k个初始中心

D. 计算距离

144. ⭐⭐ K值选择方法不包括?

A. 肘部法则

B. 轮廓系数

C. 业务需求

D. 随机选择

145. ⭐⭐⭐ K-means算法的复杂度是?

A. O ( n ) O(n) O(n)

B. O ( n k ) O(nk) O(nk)

C. O ( n k t ) O(nkt) O(nkt)(n是对象数,k是簇数,t是迭代次数)

D. O ( n 2 ) O(n^2) O(n2)

多选题

146. ⭐⭐ K-means的优点包括?

A. 算法简单

B. 计算效率高

C. 结果直观

D. 不需要预先指定K值

E. 可以发现任意形状簇

147. ⭐⭐⭐ K-means的缺点包括?

A. 需要预先指定簇数k

B. 只能发现球状簇

C. 对离群点敏感

D. 初始中心选择影响结果

E. 容易陷入局部最优

判断题

148. ⭐ 聚类需要类标号数据。( )

149. ⭐⭐ K-means计算距离前不需要数据标准化。( )

150. ⭐⭐⭐ K-means只能发现球状簇,不能发现任意形状的簇。( )


十六、层次聚类-DBSCAN-离群点检测

单选题

151. ⭐ 层次聚类的主要特点是?

A. 需要预先指定簇数

B. 不需要预先指定簇数

C. 只能发现球状簇

D. 计算复杂度低

152. ⭐ DBSCAN的主要特点是?

A. 基于距离

B. 基于密度,可以发现任意形状的簇

C. 需要预先指定簇数

D. 只能发现球状簇

153. ⭐⭐ DBSCAN需要设置的参数是?

A. k值

B. ϵ \epsilon ϵ和MinPts

C. 学习率

D. 迭代次数

154. ⭐⭐ 离群点检测方法不包括?

A. 统计方法

B. 距离方法

C. 密度方法

D. 聚类方法

155. ⭐⭐⭐ 关于DBSCAN,下列说法正确的是?

A. DBSCAN对噪声不敏感

B. DBSCAN对噪声鲁棒,可以自动识别噪声点

C. DBSCAN需要预先指定簇数

D. DBSCAN只能发现球状簇

多选题

156. ⭐⭐ 层次聚类方法包括?

A. 凝聚层次聚类(自底向上合并)

B. 分裂层次聚类(自顶向下分裂)

C. K-means

D. DBSCAN

E. 基于网格的方法

157. ⭐⭐⭐ 离群点检测方法包括?

A. 统计方法(有分布假设)

B. 距离方法(简单但计算复杂度高)

C. 密度方法(可以发现局部离群点)

D. 偏差方法(需要定义行为模式)

E. 聚类方法

判断题

158. ⭐ 层次聚类适合大规模数据。( )

159. ⭐⭐ DBSCAN可以发现任意形状的簇。( )

160. ⭐⭐⭐ 离群点就是噪声,应该删除。( )


十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析

单选题

161. ⭐ 支持度的定义是?

A. Support ( X ) = ∣ { d ∈ D ∣ X ⊆ d } ∣ ∣ D ∣ \text{Support}(X) = \frac{|\{d \in D | X \subseteq d\}|}{|D|} Support(X)=∣D∣∣{d∈D∣X⊆d}∣

B. Support ( X ) = ∣ X ∣ \text{Support}(X) = |X| Support(X)=∣X∣

C. Support ( X ) = ∣ X ∣ ∣ D ∣ \text{Support}(X) = \frac{|X|}{|D|} Support(X)=∣D∣∣X∣

D. Support ( X ) = ∣ D ∣ \text{Support}(X) = |D| Support(X)=∣D∣

162. ⭐ 置信度的定义是?

A. Confidence ( X → Y ) = Support ( X ∪ Y ) Support ( X ) \text{Confidence}(X \rightarrow Y) = \frac{\text{Support}(X \cup Y)}{\text{Support}(X)} Confidence(X→Y)=Support(X)Support(X∪Y)

B. Confidence ( X → Y ) = Support ( X ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) Confidence(X→Y)=Support(X)

C. Confidence ( X → Y ) = Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(Y) Confidence(X→Y)=Support(Y)

D. Confidence ( X → Y ) = Support ( X ) + Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) + \text{Support}(Y) Confidence(X→Y)=Support(X)+Support(Y)

163. ⭐⭐ Apriori算法的核心原理是?

A. 先验原理(频繁项集的子集一定是频繁的)

B. 后验原理

C. 最大似然原理

D. 最小二乘原理

164. ⭐⭐ Apriori算法和FP-Growth算法的主要区别是?

A. Apriori需要多次扫描数据库,FP-Growth只需要扫描一次

B. FP-Growth需要多次扫描数据库,Apriori只需要扫描一次

C. 两者没有区别

D. Apriori用于分类,FP-Growth用于聚类

165. ⭐⭐⭐ 关于先验原理,下列说法正确的是?

A. 频繁项集的子集一定是频繁的(用于剪枝)

B. 非频繁项集的超集一定是非频繁的(用于减少候选)

C. 以上都是

D. 以上都不是

多选题

166. ⭐⭐ Apriori算法的步骤包括?

A. 扫描数据库,生成频繁1项集

B. 逐层生成频繁k项集

C. 候选项集生成和剪枝

D. 生成强关联规则

E. 只扫描一次数据库

167. ⭐⭐⭐ 关联规则挖掘的应用包括?

A. 购物篮分析

B. 商品推荐

C. 搭配销售

D. 市场分析

E. 分类问题

判断题

168. ⭐ 支持度衡量规则是否常见,置信度衡量规则是否可信。( )

169. ⭐⭐ Apriori算法适合频繁项集长度较长的场景。( )

170. ⭐⭐⭐ 高置信度不一定意味着因果关系,需要结合业务知识判断。( )


题目统计

  • 单选题:85题(每题1分)
  • 多选题:34题(每题2分)
  • 判断题:51题(每题1分)
  • 总计:170题,204分

难度分布

  • ⭐ 基础题:约60题
  • ⭐⭐ 中等题:约70题
  • ⭐⭐⭐ 高难度题:约40题

使用建议

  1. 先独立完成题目,不要直接看答案
  2. 完成后再对照答案和解析
  3. 对于错题,重点复习相关知识点
  4. 定期回顾,巩固记忆
相关推荐
南极星10051 小时前
OPENCV(python)--初学之路(十二)霍夫线/圆变换
人工智能·opencv·计算机视觉
海岸线科技1 小时前
打破离散制造“内卷”:工业智能体(AI Agent)落地的五大核心原则
人工智能·制造
ar01231 小时前
AR远程协助如何提升能源行业运维效率
人工智能·ar
(; ̄ェ ̄)。1 小时前
机器学习入门(一),线性回归
人工智能·机器学习
爱写代码的小朋友1 小时前
AI教育产品市场中的用户信任危机与治理策略研究:基于多利益相关者视角的分析
人工智能
北京阿法龙科技有限公司1 小时前
AR眼镜仓储物流分拣技术应用与落地方案
运维·人工智能·ar·xr
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2025-12-05
人工智能·经验分享·深度学习·神经网络·产品运营
BruceWooCoder1 小时前
从零打造云端AI视频生成服务:基于CogVideoX和MCP协议的完整实践
人工智能·音视频
大千AI助手1 小时前
汉明距离:度量差异的基石与AI应用
人工智能·机器学习·距离度量·汉明距离·大千ai助手·hammingdistance·纠错码