📝 使用说明:
- 题目按知识点分类,每个知识点包含不同难度的题目
- ⭐ 表示基础题,⭐⭐ 表示中等难度,⭐⭐⭐ 表示高难度
- 答案在每部分末尾,建议先做题再看答案
- 题目类型:单选题(A/B/C/D)、多选题(A/B/C/D/E)、判断题(√/×)
目录
- 一、模式识别基础
- 二、机器学习基础
- 三、决策树
- 四、kNN
- 五、贝叶斯
- 六、逻辑回归
- 七、线性回归
- 八、进化计算
- 九、元学习
- 十、PCA
- 十一、AdaBoost
- 十二、数据类型分类-统计描述
- 十三、缺失值处理-属性选择转换
- 十四、离散化-数据清理
- 十五、聚类基本概念-K-means
- 十六、层次聚类-DBSCAN-离群点检测
- 十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析
一、模式识别基础
单选题
1. ⭐ 模式的定义是什么?
A. 事物的本质特征
B. 时空特征组合,用向量表示
C. 数据的统计特征
D. 算法的输出结果
2. ⭐ 模式具有哪三大特性?
A. 可观察性、可区分性、相似性
B. 准确性、可靠性、有效性
C. 完整性、一致性、正确性
D. 可扩展性、可维护性、可重用性
3. ⭐⭐ 模式识别过程的完整流程是?
A. 数据获取 → 预处理 → 分类决策
B. 数据获取 → 预处理 → 特征提取 → 分类决策
C. 数据获取 → 特征提取 → 分类决策
D. 预处理 → 特征提取 → 分类决策
4. ⭐⭐ 模式识别的主要方法不包括?
A. 数据聚类
B. 模版匹配
C. 神经网络
D. 线性规划
5. ⭐⭐⭐ 关于"没有免费的午餐"定理,下列说法正确的是?
A. 所有算法在所有问题上表现相同
B. 不存在在所有问题上都最优的算法
C. 简单算法总是比复杂算法好
D. 复杂算法总是比简单算法好
多选题
6. ⭐⭐ 模式的表示方法包括?
A. 向量表示
B. 矩阵表示
C. 图表示
D. 树表示
E. 字符串表示
7. ⭐⭐⭐ 模式识别面临的难点包括?
A. 非结构化数据多
B. 机器缺乏抽象能力
C. 数据质量问题
D. 计算资源有限
E. 算法复杂度高
判断题
8. ⭐ 模式就是事物本身。( )
9. ⭐⭐ 模式识别只需要分类,不需要模式发现和评估。( )
10. ⭐⭐⭐ 奥卡姆剃刀原理说明简单模型总是比复杂模型好。( )
二、机器学习基础
单选题
11. ⭐ 机器学习的本质是?
A. 编写程序解决问题
B. 通过数据学习提升能力
C. 存储大量数据
D. 执行复杂计算
12. ⭐ 监督学习、无监督学习、强化学习的主要区别是?
A. 数据量大小
B. 是否有标签数据
C. 算法复杂度
D. 计算速度
13. ⭐⭐ 经验风险最小化(ERM)的核心思想是?
A. 最小化训练误差
B. 最小化测试误差
C. 最小化期望风险
D. 用样本误差近似期望风险
14. ⭐⭐ 机器学习模型追求的核心能力是?
A. 训练准确率
B. 泛化能力
C. 计算速度
D. 模型复杂度
15. ⭐⭐⭐ 关于"一致性假设",下列说法正确的是?
A. 训练数据和测试数据分布相同
B. 样本独立同分布
C. 模型参数不变
D. 特征空间不变
多选题
16. ⭐⭐ 机器学习的主要方法包括?
A. 监督学习
B. 无监督学习
C. 强化学习
D. 半监督学习
E. 迁移学习
17. ⭐⭐⭐ 机器学习面临的挑战包括?
A. 泛化能力
B. 速度
C. 可理解性
D. 数据利用
E. 代价敏感
判断题
18. ⭐ 机器学习就是人工智能。( )
19. ⭐⭐ 经验风险最小化一定能保证泛化能力。( )
20. ⭐⭐⭐ 黑箱模型比白箱模型总是更好。( )
三、决策树
单选题
21. ⭐ 决策树的基本思想是?
A. 线性划分
B. 递归划分输入空间
C. 概率建模
D. 距离计算
22. ⭐ ID3算法使用什么来选择分裂属性?
A. 信息增益
B. 增益率
C. 基尼系数
D. 方差
23. ⭐⭐ 信息增益的计算公式是?
A. G a i n ( A ) = E n t r o p y ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)−∑v=1V∣D∣∣Dv∣Entropy(Dv)
B. G a i n ( A ) = E n t r o p y ( D ) + ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) + \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)+∑v=1V∣D∣∣Dv∣Entropy(Dv)
C. G a i n ( A ) = E n t r o p y ( D ) × ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) \times \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)×∑v=1V∣D∣∣Dv∣Entropy(Dv)
D. G a i n ( A ) = E n t r o p y ( D ) / ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t r o p y ( D v ) Gain(A) = Entropy(D) / \sum_{v=1}^{V} \frac{|D_v|}{|D|} Entropy(D_v) Gain(A)=Entropy(D)/∑v=1V∣D∣∣Dv∣Entropy(Dv)
24. ⭐⭐ C4.5算法使用增益率是为了解决什么问题?
A. 计算复杂度
B. 信息增益偏向多值属性
C. 过拟合问题
D. 缺失值处理
25. ⭐⭐⭐ 关于决策树剪枝,下列说法正确的是?
A. 预剪枝总是比后剪枝好
B. 后剪枝总是比预剪枝好
C. 预剪枝可能欠拟合,后剪枝效果更好但计算量大
D. 剪枝不影响模型性能
多选题
26. ⭐⭐ 决策树的优点包括?
A. 直观易懂
B. 不需要领域知识
C. 处理高维数据快
D. 可解释性强
E. 不容易过拟合
27. ⭐⭐⭐ 决策树处理过拟合的方法包括?
A. 预剪枝
B. 后剪枝
C. 限制树的深度
D. 限制叶节点最小样本数
E. 增加训练数据
判断题
28. ⭐ 决策树是急切学习算法。( )
29. ⭐⭐ 信息增益越大,分类准确性提升越大。( )
30. ⭐⭐⭐ CART算法只能处理分类问题。( )
四、kNN
单选题
31. ⭐ kNN是什么类型的算法?
A. 急切学习
B. 惰性学习
C. 在线学习
D. 批量学习
32. ⭐ kNN的核心思想是?
A. 线性划分
B. 概率建模
C. 近朱者赤近墨者黑
D. 递归划分
33. ⭐⭐ 欧几里德距离的公式是?
A. d ( x i , x j ) = ∑ f = 1 p ∣ x i f − x j f ∣ d(x_i, x_j) = \sum_{f=1}^{p}|x_{if} - x_{jf}| d(xi,xj)=∑f=1p∣xif−xjf∣
B. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sqrt{\sum_{f=1}^{p}(x_{if} - x_{jf})^2} d(xi,xj)=∑f=1p(xif−xjf)2
C. d ( x i , x j ) = max f ∣ x i f − x j f ∣ d(x_i, x_j) = \max_f|x_{if} - x_{jf}| d(xi,xj)=maxf∣xif−xjf∣
D. d ( x i , x j ) = ∑ f = 1 p ( x i f − x j f ) 2 d(x_i, x_j) = \sum_{f=1}^{p}(x_{if} - x_{jf})^2 d(xi,xj)=∑f=1p(xif−xjf)2
34. ⭐⭐ 关于k值选择,下列说法正确的是?
A. k越大越好
B. k越小越好
C. k太小易过拟合,k太大模型过于简单
D. k值不影响结果
35. ⭐⭐⭐ kD树的主要作用是?
A. 存储数据
B. 提高最近邻搜索效率
C. 减少存储空间
D. 提高分类准确率
多选题
36. ⭐⭐ kNN的距离度量方法包括?
A. 欧几里德距离
B. 曼哈顿距离
C. 切比雪夫距离
D. 闵可夫斯基距离
E. 余弦距离
37. ⭐⭐⭐ kNN的缺点包括?
A. 对噪声敏感
B. 计算慢
C. 需要存储所有训练样本
D. 对不平衡数据敏感
E. 高维数据效果差
判断题
38. ⭐ kNN在训练阶段需要构建模型。( )
39. ⭐⭐ kNN计算距离前不需要数据标准化。( )
40. ⭐⭐⭐ kNN可以处理任意形状的决策边界。( )
五、贝叶斯
单选题
41. ⭐ 贝叶斯公式是?
A. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P ( X ) P(C|X) = \frac{P(X|C) \cdot P(C)}{P(X)} P(C∣X)=P(X)P(X∣C)⋅P(C)
B. P ( C ∣ X ) = P ( X ∣ C ) ⋅ P ( C ) P(C|X) = P(X|C) \cdot P(C) P(C∣X)=P(X∣C)⋅P(C)
C. P ( C ∣ X ) = P ( X ∣ C ) P ( X ) P(C|X) = \frac{P(X|C)}{P(X)} P(C∣X)=P(X)P(X∣C)
D. P ( C ∣ X ) = P ( C ) ⋅ P ( X ) P(C|X) = P(C) \cdot P(X) P(C∣X)=P(C)⋅P(X)
42. ⭐ 朴素贝叶斯的"朴素"假设是?
A. 所有特征独立
B. 所有特征条件独立
C. 所有特征相关
D. 所有特征相同
43. ⭐⭐ 先验概率、似然概率、后验概率的区别是?
A. 先验概率是观测数据前的判断,似然概率是给定类别下观测到数据的概率,后验概率是观测数据后的判断
B. 三者没有区别
C. 先验概率最大,后验概率最小
D. 似然概率最大,先验概率最小
44. ⭐⭐ 最小错误率决策和最小风险决策的区别是?
A. 最小错误率不考虑错误代价,最小风险考虑错误代价
B. 最小错误率考虑错误代价,最小风险不考虑错误代价
C. 两者没有区别
D. 最小错误率用于分类,最小风险用于回归
45. ⭐⭐⭐ 关于EM算法,下列说法正确的是?
A. EM算法只适用于有完整数据的情况
B. EM算法通过E步骤和M步骤迭代优化,适用于有隐藏变量的情况
C. EM算法不需要迭代
D. EM算法只适用于分类问题
多选题
46. ⭐⭐ 参数估计方法包括?
A. 最大似然估计(MLE)
B. 最大后验估计(MAP)
C. 贝叶斯参数估计
D. 最小二乘估计
E. 矩估计
47. ⭐⭐⭐ 朴素贝叶斯的优点包括?
A. 简单易懂
B. 训练速度快
C. 对小规模数据表现良好
D. 对噪声数据不敏感
E. 可以处理多分类问题
判断题
48. ⭐ 贝叶斯方法只能给出确定标签,不能给出概率值。( )
49. ⭐⭐ 朴素贝叶斯的条件独立性假设在现实中总是成立的。( )
50. ⭐⭐⭐ 如果某个属性值在训练数据中从未出现,朴素贝叶斯会使用平滑技术避免概率为0。( )
六、逻辑回归
单选题
51. ⭐ Sigmoid函数的作用是?
A. 将任意实数映射到[0,1]区间
B. 将任意实数映射到[-1,1]区间
C. 将任意实数映射到[0,∞)区间
D. 将任意实数映射到实数域
52. ⭐ 逻辑回归的损失函数是?
A. 均方误差
B. 交叉熵损失
C. 绝对值误差
D. 对数损失
53. ⭐⭐ 逻辑回归的决策边界是?
A. 非线性的
B. 线性的( θ T x = 0 \theta^T x = 0 θTx=0)
C. 圆形的
D. 任意形状的
54. ⭐⭐ 梯度下降法中,学习率的作用是?
A. 控制参数更新的步长
B. 控制迭代次数
C. 控制模型复杂度
D. 控制数据量
55. ⭐⭐⭐ 关于梯度下降法的变体,下列说法正确的是?
A. 批量梯度下降最快但最不稳定
B. 随机梯度下降最稳定但最慢
C. 小批量梯度下降平衡速度和稳定性,最常用
D. 三种方法没有区别
多选题
56. ⭐⭐ 逻辑回归的优化方法包括?
A. 批量梯度下降(BGD)
B. 随机梯度下降(SGD)
C. 小批量梯度下降(MBGD)
D. 动量法
E. Adam算法
57. ⭐⭐⭐ 逻辑回归的缺点包括?
A. 只能处理线性决策边界
B. 对异常值敏感
C. 特征缺失时表现不好
D. 计算复杂度高
E. 需要大量数据
判断题
58. ⭐ 逻辑回归是回归算法,不是分类算法。( )
59. ⭐⭐ 逻辑回归对对数几率是线性的。( )
60. ⭐⭐⭐ 逻辑回归可以处理多分类问题,但需要特殊处理(One-vs-Rest或Softmax)。( )
七、线性回归
单选题
61. ⭐ 线性回归的基本模型是?
A. y = β 0 + β 1 x 1 + . . . + β D x D = x T β y = \beta_0 + \beta_1 x_1 + ... + \beta_D x_D = x^T \beta y=β0+β1x1+...+βDxD=xTβ
B. y = β 0 × β 1 x 1 × . . . × β D x D y = \beta_0 \times \beta_1 x_1 \times ... \times \beta_D x_D y=β0×β1x1×...×βDxD
C. y = β 0 + β 1 x 1 2 + . . . + β D x D 2 y = \beta_0 + \beta_1 x_1^2 + ... + \beta_D x_D^2 y=β0+β1x12+...+βDxD2
D. y = sin ( β T x ) y = \sin(\beta^T x) y=sin(βTx)
62. ⭐ 最小二乘法的解析解是?
A. β ^ = ( Φ T Φ ) − 1 Φ T y \hat{\beta} = (\Phi^T \Phi)^{-1} \Phi^T y β^=(ΦTΦ)−1ΦTy
B. β ^ = Φ T y \hat{\beta} = \Phi^T y β^=ΦTy
C. β ^ = Φ y \hat{\beta} = \Phi y β^=Φy
D. β ^ = ( Φ T Φ ) Φ T y \hat{\beta} = (\Phi^T \Phi) \Phi^T y β^=(ΦTΦ)ΦTy
63. ⭐⭐ L1正则化(Lasso)和L2正则化(Ridge)的区别是?
A. L1让参数变小但不为0,L2可以让参数为0
B. L1可以让参数为0(特征选择),L2让参数变小但不为0
C. 两者没有区别
D. L1用于分类,L2用于回归
64. ⭐⭐ 关于过拟合,下列说法正确的是?
A. 模型在训练数据上表现好,在新数据上也表现好
B. 模型在训练数据上表现好,但在新数据上表现差
C. 模型在训练数据上表现差,在新数据上也表现差
D. 过拟合总是好的
65. ⭐⭐⭐ 当特征数量大于样本数时,最小二乘法会出现什么问题?
A. 计算速度慢
B. 矩阵 Φ T Φ \Phi^T\Phi ΦTΦ不可逆
C. 结果不准确
D. 没有影响
多选题
66. ⭐⭐ 线性回归的基函数的作用是?
A. 对输入特征进行非线性变换
B. 让线性回归处理非线性关系
C. 虽然对原始特征非线性,但对变换后的特征仍线性(对参数 β \beta β线性)
D. 减少特征数量
E. 提高计算速度
67. ⭐⭐⭐ 线性回归的缺点包括?
A. 假设线性关系
B. 对异常值敏感
C. 多重共线性问题
D. 需要大量数据
E. 计算复杂度高
判断题
68. ⭐ 线性回归只能处理线性关系。( )
69. ⭐⭐ 使用基函数可以让线性回归处理非线性关系。( )
70. ⭐⭐⭐ L1正则化可以实现自动特征选择。( )
八、进化计算
单选题
71. ⭐ 遗传算法的基本思想来源于?
A. 数学优化
B. 生物进化过程
C. 物理过程
D. 化学过程
72. ⭐ 遗传算法的五个要素不包括?
A. 编码方案
B. 初始种群
C. 适应度函数
D. 学习率
73. ⭐⭐ 遗传操作包括?
A. 选择、交叉、变异
B. 选择、交叉、学习
C. 交叉、变异、学习
D. 选择、变异、学习
74. ⭐⭐ 交叉操作的作用是?
A. 增加种群多样性
B. 组合父代基因产生子代
C. 随机改变基因
D. 选择优秀个体
75. ⭐⭐⭐ 遗传算法与进化策略的主要区别是?
A. 编码方式(位串编码vs实数串编码)
B. 优化能力
C. 适用问题(离散优化vs连续优化)
D. 以上都是
多选题
76. ⭐⭐ 遗传算法的应用场景包括?
A. 函数优化
B. 组合优化
C. 机器学习参数调优
D. 路径规划
E. 图像处理
77. ⭐⭐⭐ 遗传算法的缺点包括?
A. 收敛速度慢
B. 容易陷入局部最优
C. 参数设置复杂
D. 计算复杂度高
E. 结果不稳定
判断题
78. ⭐ 遗传算法保证找到全局最优解。( )
79. ⭐⭐ 变异操作可以增加种群多样性,防止过早收敛。( )
80. ⭐⭐⭐ 遗传算法适合处理高维连续优化问题。( )
九、元学习
单选题
81. ⭐ 元学习的核心思想是?
A. 使用单个学习器
B. 组合多个学习器提高性能
C. 使用深度学习
D. 使用强化学习
82. ⭐ Bagging和Boosting的主要区别是?
A. Bagging并行训练,Boosting顺序训练
B. Bagging顺序训练,Boosting并行训练
C. 两者没有区别
D. Bagging用于分类,Boosting用于回归
83. ⭐⭐ 随机森林是?
A. Bagging + 决策树 + 特征随机选择
B. Boosting + 决策树
C. 单个决策树
D. 神经网络
84. ⭐⭐ Stacking的核心思想是?
A. 简单投票
B. 使用元学习器学习如何组合基学习器
C. 平均预测结果
D. 选择最好的基学习器
85. ⭐⭐⭐ 关于基学习器差异性,下列说法正确的是?
A. 基学习器越相似越好
B. 基学习器差异性越大,最终组合学习器的学习效果越好
C. 差异性不影响结果
D. 只需要一个基学习器
多选题
86. ⭐⭐ 元学习方法包括?
A. Bagging
B. Boosting
C. 随机森林
D. Stacking
E. 投票法
87. ⭐⭐⭐ Bagging的优点包括?
A. 减少方差
B. 降低过拟合
C. 可以并行训练
D. 重点关注困难样本
E. 降低偏差
判断题
88. ⭐ 元学习就是使用多个相同的学习器。( )
89. ⭐⭐ Boosting可以并行训练多个基学习器。( )
90. ⭐⭐⭐ 随机森林不需要对决策树进行剪枝。( )
十、PCA
单选题
91. ⭐ PCA的主要作用是?
A. 分类
B. 聚类
C. 降维
D. 回归
92. ⭐ PCA的核心思想是?
A. 最小化方差
B. 最大化方差(寻找方差最大的投影方向)
C. 最小化距离
D. 最大化距离
93. ⭐⭐ PCA降维后,主成分之间是?
A. 相关的
B. 正交的(不相关)
C. 相同的
D. 随机的
94. ⭐⭐ PCA的适用场景是?
A. 数据维度高且存在相关性
B. 数据维度低
C. 数据没有相关性
D. 分类问题
95. ⭐⭐⭐ 关于PCA的局限性,下列说法正确的是?
A. PCA可以处理非线性关系
B. PCA假设数据是线性相关的
C. PCA不需要数据预处理
D. PCA可以处理缺失值
多选题
96. ⭐⭐ PCA的步骤包括?
A. 零均值化
B. 计算协方差矩阵
C. 特征值分解
D. 选择主成分
E. 投影到低维空间
97. ⭐⭐⭐ PCA的应用包括?
A. 数据可视化
B. 特征提取
C. 噪声去除
D. 数据压缩
E. 分类
判断题
98. ⭐ PCA可以保留数据的所有信息。( )
99. ⭐⭐ PCA降维后,主成分的方差是递减的。( )
100. ⭐⭐⭐ PCA可以用于分类问题的特征提取。( )
十一、AdaBoost
单选题
101. ⭐ AdaBoost的核心思想是?
A. 使用单个强分类器
B. 组合多个弱分类器形成强分类器
C. 使用深度学习
D. 使用强化学习
102. ⭐ AdaBoost中,分类器权重的计算公式是?
A. α = 1 2 ln ( 1 − ε ε ) \alpha = \frac{1}{2}\ln(\frac{1-\varepsilon}{\varepsilon}) α=21ln(ε1−ε)
B. α = ε \alpha = \varepsilon α=ε
C. α = 1 − ε \alpha = 1 - \varepsilon α=1−ε
D. α = ε 1 − ε \alpha = \frac{\varepsilon}{1-\varepsilon} α=1−εε
103. ⭐⭐ 关于AdaBoost的权重调整,下列说法正确的是?
A. 错误分类的样本权重降低
B. 错误分类的样本权重提高(多关注)
C. 所有样本权重相同
D. 权重不影响结果
104. ⭐⭐ AdaBoost使用的弱分类器通常是?
A. 深度神经网络
B. 单层决策树(决策桩)
C. 随机森林
D. 支持向量机
105. ⭐⭐⭐ AdaBoost的缺点包括?
A. 对噪声敏感
B. 计算复杂度高
C. 无法并行化
D. 以上都是
多选题
106. ⭐⭐ AdaBoost的算法流程包括?
A. 初始化样本权重
B. 迭代训练弱分类器
C. 计算分类器权重
D. 更新样本权重
E. 组合所有分类器
107. ⭐⭐⭐ AdaBoost的适用场景包括?
A. 二分类问题
B. 数据质量较好
C. 计算资源充足
D. 需要可解释性
E. 噪声很大的数据
判断题
108. ⭐ AdaBoost可以并行训练多个弱分类器。( )
109. ⭐⭐ AdaBoost中,错误率越小的分类器权重越大。( )
110. ⭐⭐⭐ AdaBoost对噪声数据不敏感。( )
十二、数据类型分类-统计描述
单选题
111. ⭐ 三种数据类型是?
A. 结构化、半结构化、非结构化
B. 数值型、字符型、布尔型
C. 连续型、离散型、混合型
D. 训练数据、测试数据、验证数据
112. ⭐ 结构化数据的特点是?
A. 强约束,数据严格组织在二维表中
B. 弱约束,有一定结构但语义不确定
C. 无约束,数据杂乱无章
D. 没有固定格式
113. ⭐⭐ 中心趋势度量不包括?
A. 均值
B. 中位数
C. 众数
D. 方差
114. ⭐⭐ 数据散布度量包括?
A. 极差、分位数、方差、标准差
B. 均值、中位数、众数
C. 最大值、最小值
D. 总和、平均值
115. ⭐⭐⭐ 关于三种数据类型的区别,下列说法正确的是?
A. 核心区别是数据量大小
B. 核心区别是模式(schema)对数据的约束程度不同
C. 核心区别是存储方式
D. 没有区别
多选题
116. ⭐⭐ 中心趋势度量包括?
A. 均值
B. 中位数
C. 众数
D. 中位数(最大值和最小值的平均)
E. 方差
117. ⭐⭐⭐ 数据散布度量包括?
A. 极差
B. 分位数(四分位数、IQR)
C. 五数概括
D. 方差和标准差
E. 均值
判断题
118. ⭐ 半结构化数据用XML/JSON存储。( )
119. ⭐⭐ 均值对极端值敏感,中位数对倾斜数据更好。( )
120. ⭐⭐⭐ 非结构化数据易于提取和处理。( )
十三、缺失值处理-属性选择转换
单选题
121. ⭐ 缺失值处理方法不包括?
A. 忽略元组
B. 人工填写
C. 全局常量
D. 删除所有数据
122. ⭐ 有类别信息时,优先使用的缺失值处理方法是?
A. 全局常量
B. 均值/中位数
C. 同类样本统计量
D. 忽略元组
123. ⭐⭐ 属性选择方法不包括?
A. Filter方法
B. Wrapper方法
C. Embedded方法
D. Random方法
124. ⭐⭐ 属性转换包括?
A. 降维、规范化、特殊转换
B. 删除、添加、修改
C. 分类、聚类、回归
D. 训练、测试、验证
125. ⭐⭐⭐ 关于属性选择方法的选择,下列说法正确的是?
A. 大规模数据→Filter方法
B. 数据量适中且准确性要求高→Wrapper方法
C. 使用特定算法→Embedded方法
D. 以上都是
多选题
126. ⭐⭐ 缺失值处理方法包括?
A. 忽略元组(<5%且随机)
B. 人工填写(数据量小)
C. 全局常量(快速处理)
D. 均值/中位数(分布均匀)
E. 同类样本统计量(有类别信息)
127. ⭐⭐⭐ 属性选择的Filter方法特点包括?
A. 快速筛选
B. 独立于算法
C. 优化组合
D. 用算法评价
E. 算法内置
判断题
128. ⭐ 缺失值处理中,最可能值方法(预测模型)最准确。( )
129. ⭐⭐ Wrapper方法比Filter方法计算更快。( )
130. ⭐⭐⭐ 规范化可以消除不同属性量纲的影响。( )
十四、离散化-数据清理
单选题
131. ⭐ 数值属性离散化的作用是?
A. 将连续值转换为离散类别
B. 将离散值转换为连续值
C. 删除数据
D. 增加数据
132. ⭐ 无监督离散方法不包括?
A. 等值区间
B. 等频区间
C. 聚类
D. 基于熵的离散
133. ⭐⭐ 有监督离散方法包括?
A. 基于熵的离散
B. 基于误差的离散
C. 等值区间
D. A和B
134. ⭐⭐ 自动数据清理方法不包括?
A. 改进决策树
B. 稳健回归
C. 离群点检测
D. 删除所有数据
135. ⭐⭐⭐ 关于离散化策略,下列说法正确的是?
A. 局部离散优于全局离散
B. 全局离散优于局部离散
C. 有类别信息→无监督离散
D. 无类别信息→有监督离散
多选题
136. ⭐⭐ 无监督离散方法包括?
A. 等值区间
B. 等频区间
C. 聚类
D. 概念分层
E. 基于熵的离散
137. ⭐⭐⭐ 自动数据清理方法包括?
A. 改进决策树
B. 稳健回归(LMedS方法)
C. 离群点检测
D. 删除异常值
E. 数据增强
判断题
138. ⭐ 离散化可以提高算法的速度和可解释性。( )
139. ⭐⭐ 有类别信息时,有监督离散优于无监督离散。( )
140. ⭐⭐⭐ 稳健回归可以抵抗离群点的干扰。( )
十五、聚类基本概念-K-means
单选题
141. ⭐ 聚类分析是什么?
A. 监督学习方法
B. 无监督学习方法
C. 强化学习方法
D. 半监督学习方法
142. ⭐ 聚类的核心原则是?
A. 最大化簇内相似性,最小化簇间相似性
B. 最小化簇内相似性,最大化簇间相似性
C. 最大化簇内和簇间相似性
D. 最小化簇内和簇间相似性
143. ⭐⭐ K-means算法的第一步是?
A. 将对象分配到最近中心
B. 重新计算中心
C. 随机选择k个初始中心
D. 计算距离
144. ⭐⭐ K值选择方法不包括?
A. 肘部法则
B. 轮廓系数
C. 业务需求
D. 随机选择
145. ⭐⭐⭐ K-means算法的复杂度是?
A. O ( n ) O(n) O(n)
B. O ( n k ) O(nk) O(nk)
C. O ( n k t ) O(nkt) O(nkt)(n是对象数,k是簇数,t是迭代次数)
D. O ( n 2 ) O(n^2) O(n2)
多选题
146. ⭐⭐ K-means的优点包括?
A. 算法简单
B. 计算效率高
C. 结果直观
D. 不需要预先指定K值
E. 可以发现任意形状簇
147. ⭐⭐⭐ K-means的缺点包括?
A. 需要预先指定簇数k
B. 只能发现球状簇
C. 对离群点敏感
D. 初始中心选择影响结果
E. 容易陷入局部最优
判断题
148. ⭐ 聚类需要类标号数据。( )
149. ⭐⭐ K-means计算距离前不需要数据标准化。( )
150. ⭐⭐⭐ K-means只能发现球状簇,不能发现任意形状的簇。( )
十六、层次聚类-DBSCAN-离群点检测
单选题
151. ⭐ 层次聚类的主要特点是?
A. 需要预先指定簇数
B. 不需要预先指定簇数
C. 只能发现球状簇
D. 计算复杂度低
152. ⭐ DBSCAN的主要特点是?
A. 基于距离
B. 基于密度,可以发现任意形状的簇
C. 需要预先指定簇数
D. 只能发现球状簇
153. ⭐⭐ DBSCAN需要设置的参数是?
A. k值
B. ϵ \epsilon ϵ和MinPts
C. 学习率
D. 迭代次数
154. ⭐⭐ 离群点检测方法不包括?
A. 统计方法
B. 距离方法
C. 密度方法
D. 聚类方法
155. ⭐⭐⭐ 关于DBSCAN,下列说法正确的是?
A. DBSCAN对噪声不敏感
B. DBSCAN对噪声鲁棒,可以自动识别噪声点
C. DBSCAN需要预先指定簇数
D. DBSCAN只能发现球状簇
多选题
156. ⭐⭐ 层次聚类方法包括?
A. 凝聚层次聚类(自底向上合并)
B. 分裂层次聚类(自顶向下分裂)
C. K-means
D. DBSCAN
E. 基于网格的方法
157. ⭐⭐⭐ 离群点检测方法包括?
A. 统计方法(有分布假设)
B. 距离方法(简单但计算复杂度高)
C. 密度方法(可以发现局部离群点)
D. 偏差方法(需要定义行为模式)
E. 聚类方法
判断题
158. ⭐ 层次聚类适合大规模数据。( )
159. ⭐⭐ DBSCAN可以发现任意形状的簇。( )
160. ⭐⭐⭐ 离群点就是噪声,应该删除。( )
十七、支持度与置信度-Apriori算法-FP-Growth算法-购物篮分析
单选题
161. ⭐ 支持度的定义是?
A. Support ( X ) = ∣ { d ∈ D ∣ X ⊆ d } ∣ ∣ D ∣ \text{Support}(X) = \frac{|\{d \in D | X \subseteq d\}|}{|D|} Support(X)=∣D∣∣{d∈D∣X⊆d}∣
B. Support ( X ) = ∣ X ∣ \text{Support}(X) = |X| Support(X)=∣X∣
C. Support ( X ) = ∣ X ∣ ∣ D ∣ \text{Support}(X) = \frac{|X|}{|D|} Support(X)=∣D∣∣X∣
D. Support ( X ) = ∣ D ∣ \text{Support}(X) = |D| Support(X)=∣D∣
162. ⭐ 置信度的定义是?
A. Confidence ( X → Y ) = Support ( X ∪ Y ) Support ( X ) \text{Confidence}(X \rightarrow Y) = \frac{\text{Support}(X \cup Y)}{\text{Support}(X)} Confidence(X→Y)=Support(X)Support(X∪Y)
B. Confidence ( X → Y ) = Support ( X ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) Confidence(X→Y)=Support(X)
C. Confidence ( X → Y ) = Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(Y) Confidence(X→Y)=Support(Y)
D. Confidence ( X → Y ) = Support ( X ) + Support ( Y ) \text{Confidence}(X \rightarrow Y) = \text{Support}(X) + \text{Support}(Y) Confidence(X→Y)=Support(X)+Support(Y)
163. ⭐⭐ Apriori算法的核心原理是?
A. 先验原理(频繁项集的子集一定是频繁的)
B. 后验原理
C. 最大似然原理
D. 最小二乘原理
164. ⭐⭐ Apriori算法和FP-Growth算法的主要区别是?
A. Apriori需要多次扫描数据库,FP-Growth只需要扫描一次
B. FP-Growth需要多次扫描数据库,Apriori只需要扫描一次
C. 两者没有区别
D. Apriori用于分类,FP-Growth用于聚类
165. ⭐⭐⭐ 关于先验原理,下列说法正确的是?
A. 频繁项集的子集一定是频繁的(用于剪枝)
B. 非频繁项集的超集一定是非频繁的(用于减少候选)
C. 以上都是
D. 以上都不是
多选题
166. ⭐⭐ Apriori算法的步骤包括?
A. 扫描数据库,生成频繁1项集
B. 逐层生成频繁k项集
C. 候选项集生成和剪枝
D. 生成强关联规则
E. 只扫描一次数据库
167. ⭐⭐⭐ 关联规则挖掘的应用包括?
A. 购物篮分析
B. 商品推荐
C. 搭配销售
D. 市场分析
E. 分类问题
判断题
168. ⭐ 支持度衡量规则是否常见,置信度衡量规则是否可信。( )
169. ⭐⭐ Apriori算法适合频繁项集长度较长的场景。( )
170. ⭐⭐⭐ 高置信度不一定意味着因果关系,需要结合业务知识判断。( )
题目统计:
- 单选题:85题(每题1分)
- 多选题:34题(每题2分)
- 判断题:51题(每题1分)
- 总计:170题,204分
难度分布:
- ⭐ 基础题:约60题
- ⭐⭐ 中等题:约70题
- ⭐⭐⭐ 高难度题:约40题
使用建议:
- 先独立完成题目,不要直接看答案
- 完成后再对照答案和解析
- 对于错题,重点复习相关知识点
- 定期回顾,巩固记忆