目录
根据西瓜书,按章节总结,适用于期末考试 。只总结选择题和简答题,其他题型可以自行延伸。某些题目考得比较深,根据自己的考试范围,选择性地看即可。可以先看简答,再看选择。
简答题参考AI给出的标准答案,这样比较全面且不容易出错,记忆的时候可以重点记忆关键点。
六.支持向量机
1.选择题
(1)支持向量机的核心目标是:
A. 最小化分类错误率
B. 最大化分离超平面与所有样本点的距离
C. 最大化两个平行超平面之间的距离,这两个超平面能完全分开两类样本
D. 最小化支持向量的数量
(2)SVM对噪声敏感的主要原因是:
A. SVM使用了复杂的核函数
B. 噪声点容易成为支持向量,从而影响决策边界
C. SVM对所有的样本点都给予相同的权重
D. SVM不能处理非线性问题
(3)核函数的主要作用不包括:
A. 降低计算复杂度
B. 将数据映射到低维空间
C. 处理非线性可分问题
D. 避免显式的高维特征计算
(4)在软间隔SVM中,正则化参数C的作用是:
A. 控制核函数的类型
B. 平衡间隔大小和分类误差
C. 决定支持向量的数量
D. 调节核函数的参数
(5)关于支持向量机的说法,正确的是:
A. 硬间隔SVM对噪声不敏感
B. 核函数只能用于非线性SVM
C. 支持向量机只适用于二分类问题
D. 软间隔SVM通过引入松弛变量处理噪声
(6)关于支持向量机中"间隔"的定义,以下说法正确的是:
A. 间隔是指所有样本点到分离超平面的距离之和
B. 间隔是指距离分离超平面最近的两个异类支持向量之间的距离
C. 间隔是指两个平行超平面之间的距离,这两个超平面能完全分开两类样本
D. 间隔是指支持向量到分离超平面的距离
(7)支持向量机的对偶问题:
A. 将原始优化问题从约束优化转化为无约束优化
B. 将原始问题中的w和b用支持向量的线性组合表示
C. 使优化问题更容易求解,并自然引入核函数
D. 以上都是
(8)关于核函数,以下说法错误的是:
A. 核函数必须是连续、对称、正定的函数
B. 核函数将样本映射到高维空间,使其线性可分
C. 高斯核函数是使用最广泛的核函数之一
D. 核函数的选择不影响支持向量的数量
(9)软间隔支持向量机中,参数C的作用是:
A. 控制分类器的复杂度
B. 平衡间隔最大化和分类误差最小化
C. C值越大,对误分类的惩罚越大
D. 以上都是
(10)支持向量回归(SVR)与分类SVM的主要区别在于:
A. SVR需要定义ε-不敏感损失函数
B. SVR的间隔带是"管道"状的
C. SVR的预测函数形式与SVM分类器相同
D. 以上都是
(11)核方法的本质是:
A. 将数据映射到高维特征空间
B. 在低维空间直接计算高维空间的内积
C. 避免显式计算高维映射
D. 以上都是
(12)以下关于支持向量的说法正确的是:
A. 支持向量是位于间隔边界上的样本
B. 支持向量决定了最终的分离超平面
C. 删除非支持向量不会影响模型结果
D. 以上都是
(13)在支持向量机的优化问题中,拉格朗日乘子αᵢ满足:
A. 对于支持向量,αᵢ > 0
B. 对于非支持向量,αᵢ = 0
C. 所有样本的αᵢ之和为0
D. A和B都正确
(14)核函数必须满足的条件是:
A. 对称性:K(x, z) = K(z, x)
B. 正定性:对任意样本,核矩阵半正定
C. 满足Mercer定理
D. 以上都是
(15)关于ε-不敏感损失函数,正确的是:
A. 当预测值与真实值差异小于ε时,损失为0
B. ε控制着回归模型的精度要求
C. ε值越大,支持向量越少
D. 以上都是
1.C 2.B 3.B 4.B 5.D 6.C 7.D 8.D 9.D 10.D 11.D 12.D 13.D 14.D 15.D
2.简答题
(1)支持向量机的构建流程

(2)支持向量机的核心思想

(3) 支持向量、间隔平面、间隔带的概念与作用
(1) 支持向量 :是训练样本中那些位于最大间隔边界上或误分类一侧 的样本点。它们是决定最终分离超平面的关键样本 ,其对应的拉格朗日乘子 αi>0。支持向量之外的样本对模型没有影响,这赋予了SVM解的稀疏性。
(2) 间隔平面与间隔带 :支持向量机旨在找到两个平行的间隔边界 (或称间隔平面),它们分别穿过各自类别中离决策超平面最近的样本点(即部分支持向量)。这两个间隔边界之间的整个空间区域,称为间隔带 。两个间隔边界之间的垂直距离称为间隔 。最优超平面(决策面) 就位于这个间隔带的正中央 。最大化这个间隔带的宽度是SVM提升泛化能力的关键,它为分类决策提供了一个鲁棒的"安全缓冲区"。
(4)描述支持向量机中支持向量的特点,并说明为什么支持向量对于模型很重要。


(5) 硬间隔与软间隔的概念

(6)软间隔的错误率不能达到0的原因

(7)SVM中的正则化
在机器学习中,正则化是一种旨在防止模型过拟合、提高其泛化能力的技术 。其核心思想是在损失函数中引入一个与模型复杂度相关的惩罚项(正则化项),从而在优化过程中对模型参数进行约束或平滑 。具体而言:(1)目的 :正则化通过牺牲一部分在训练集上的拟合精度(经验风险),来换取模型结构的简化(降低复杂度),从而控制模型的容量,使其更倾向于学习到数据中更普遍的模式而非噪声。(2)常见形式 :在线性模型中,L1正则化(Lasso)倾向于产生稀疏的权重向量,可用于特征选择;L2正则化(Ridge)则使权重参数向零收缩,使模型更加平滑。(3)在SVM中的体现 :SVM本身就是一个天然的正则化模型。其"最大化间隔"的准则等价于最小化权重向量的范数(L2范数) ,这正是L2正则化的一种形式。而软间隔SVM中的惩罚参数C则直接控制着正则化的强度:C越小,对间隔的追求(即对权重范数的压制)越强,正则化作用越大,模型越简单。
(8)比较支持向量机与其他分类方法(如逻辑回归、决策树)的优缺点。



(9)什么是核函数?举例说明三种常见的核函数及其适用场景。

(10)说明核函数选择对支持向量机性能的影响,以及如何选择合适的核函数。

(11)在支持向量回归中,简述ε-不敏感损失函数的设计思想、数学表达式及其对模型训练的影响。

3.计算题





注:

4.设计机器学习方案

为了实现基于支持向量机的房价智能评估,本方案设计一个以支持向量回归为核心的数据驱动系统。首先,系统从房源数据中提取四类关键特征:房屋属性、区位条件、市场动态与时间信息,并进行标准化与编码处理。
模型选用支持向量回归,因其能通过ε-不敏感损失函数 控制预测误差,并利用核函数 处理特征与房价之间的复杂非线性关系。针对不同特征,采用混合核函数策略 :对面积、房龄等数值特征使用多项式核 ,对地理位置使用高斯核 ,其余明确线性关系的特征使用线性核。
训练中通过正则化参数C 平衡模型复杂度与拟合程度,并采用时间序列交叉验证 防止数据泄露。系统最终输出预测价格 、置信区间 及可解释性报告。
七.贝叶斯分类器
1.选择题
(1)贝叶斯决策论中,最小化分类错误率的决策规则是?
A. 选择先验概率最大的类别
B. 选择似然概率最大的类别
C. 选择后验概率最大的类别
D. 选择联合概率最大的类别
(2)在极大似然估计中,我们通常假设样本满足什么条件?
A. 样本独立同分布
B. 样本服从正态分布
C. 样本数量必须大于特征维度
D. 样本类别均衡
(3)朴素贝叶斯分类器的"朴素"体现在何处?
A. 假设所有特征之间相互独立
B. 假设特征与类别无关
C. 使用高斯分布建模连续特征
D. 忽略先验概率的影响
(4)拉普拉斯修正主要用于解决什么问题?
A. 防止数值下溢
B. 处理连续特征
C. 避免因未出现特征值导致概率为零
D. 提高计算效率
(5)贝叶斯决策论中,当各类别先验概率相等且采用0-1损失函数时,最优决策是依据什么进行分类?
A. 先验概率
B. 类条件概率(似然)
C. 证据因子
D. 决策边界函数值
(6)在极大似然估计中,如果连续特征服从高斯分布,我们需要估计的参数是:
A. 均值和方差
B. 中位数和众数
C. 相关系数
D. 特征权重
(7)朴素贝叶斯分类器对于连续特征通常如何处理?
A. 直接使用原始值计算概率
B. 假设其服从高斯分布并估计参数
C. 必须进行离散化
D. 忽略连续特征
(8)半朴素贝叶斯分类器对朴素贝叶斯的改进主要体现在:
A. 完全消除特征间的所有依赖关系
B. 允许部分特征之间存在依赖关系
C. 不再需要拉普拉斯修正
D. 使用更复杂的核函数估计概率
答案:
1.C 2.A 3.A 4.C 5.B 6.A 7.B 8.B
2.简答题
基本概念:
p(xi | c): 似然 。它描述的是:已知类别,特征会如何分布 。这是我们从训练数据中可以直接统计估计的量。
p(c):类别 c 的先验概率。 它表示在尚未观测到任何样本特征 x 的情况下,随机选取一个样本,它属于类别 c的初始可能性(或客观比例)。
p(c | xi): 是后验概率 。它描述的是:已知某个特征出现,样本属于某个类别的概率 。这正是我们分类时最终想要知道的量。
隐变量(Latent Variable):
隐变量 是不能被直接观测到,但可以从观测数据中推断出来的变量。它代表了数据背后潜在的、隐藏的结构或因素。
(1)请简述贝叶斯决策论的核心思想,并说明后验概率在分类决策中的作用。

(2)贝叶斯分类器构建的流程

(3)请阐述贝叶斯决策论的基本框架,并说明为什么在实际分类任务中通常不直接计算证据因子 P(x)。

不直接计算证据因子 P(x) 的原因:

避免了计算 P(x) 的求和操作,减少了计算量。
(4)朴素贝叶斯中"朴素"的意义。

(5)极大似然估计(MLE)的基本原理是什么?在朴素贝叶斯分类器中,如何利用MLE估计类条件概率?

(6)朴素贝叶斯的概念

(7)为什么朴素贝叶斯分类器要引入特征条件独立性假设?这一假设在实际应用中可能带来什么问题?

(8)朴素贝叶斯分类器在文本分类等任务中表现出色,但其"朴素"的独立性假设在现实数据中往往不成立。请解释为什么在这样的情况下,朴素贝叶斯仍然能取得较好的分类效果?

(9)详细解释拉普拉斯修正(平滑)的数学形式及其在朴素贝叶斯分类中的必要性。

(10)半朴素贝叶斯分类器(如TAN、AODE等)在朴素贝叶斯的基础上做了怎样的妥协和改进?请简要描述一种半朴素贝叶斯方法的基本思想。

(11)简述EM(期望最大化)算法的核心思想、应用场景及其基本迭代流程。

(12)在朴素贝叶斯分类器的训练中,若部分训练样本存在缺失的类别标签,说明如何利用EM算法进行参数估计,并简述其关键迭代步骤。

3.计算题
(1)朴素贝叶斯分类器预测

请使用朴素贝叶斯分类器预测一个新样本 (Outlook=Sunny, Temp=Cool, Humidity=High, Windy=False) 是否会进行运动(Play=Yes or No)。要求写出详细计算过程。



(2)极大似然估计



(3)贝叶斯决策论与最小风险决策



4.设计机器学习方案
使用朴素贝叶斯方法为邮箱系统设计一个简单的垃圾邮件过滤器。


八.集成学习
1.选择题
(1)在集成学习中,"弱学习器"指的是:
A. 准确率略高于随机猜测的学习器
B. 准确率低于50%的学习器
C. 计算速度慢的学习器
D. 只能处理线性问题的学习器
(2)第一个真正成功的Boosting算法是:
A. AdaBoost
B. Gradient Boosting
C. XGBoost
D. LightGBM
(3)AdaBoost算法中,基学习器的权重α_t的取值范围是:
A. [0, 1]
B. (0, )
C. (,
)
D. (0, 1)
(4)当AdaBoost中某个基学习器的错误率ε_t > 0.5时,会:
A. 继续正常训练
B. 终止训练
C. 丢弃该学习器,重新训练
D. 将其权重设为负值
(5)在AdaBoost中,样本权重的初始化通常是:
A. 均匀分布
B. 正态分布
C. 根据特征重要性分配
D. 随机分配
(6)AdaBoost对哪种类型的样本最为关注?
A. 正确分类的样本
B. 错误分类的样本
C. 所有样本同等关注
D. 边缘样本
(7)Bagging算法主要降低的是:
A. 偏差
B. 方差
C. 噪声
D. 计算复杂度
(8)在Bagging中,自助采样(bootstrap sampling)通常采样多少样本?
A. 原始训练集大小的50%
B. 原始训练集大小的63.2%
C. 与原始训练集大小相同
D. 原始训练集大小的100%
(9)随机森林中,每棵决策树在节点分裂时通常考虑的特征数量是:
A. 所有特征
B. √p(p为总特征数)
C. p/2
D. 固定为10个
(10)随机森林的"随机"体现在:
A. 只随机选择样本
B. 只随机选择特征
C. 既随机选择样本,也随机选择特征
D. 随机选择基学习器类型
(11)袋外错误率(OOB error)的主要优点是:
A. 计算速度快
B. 不需要额外的验证集
C. 总是比交叉验证准确
D. 适用于小样本数据
(12)对于高方差、低偏差的基学习器,最适合使用哪种集成方法?
A. Boosting
B. Bagging
C. Stacking
D. Voting
(13)如果数据集有很多噪声,推荐使用:
A. AdaBoost
B. 随机森林
C. Gradient Boosting
D. XGBoost
(14)在集成学习中,模型聚合的常见方式不包括:
A. 投票法
B. 平均法
C. 加权平均法
D. 乘积法
(15)以下哪种算法不是集成学习算法?
A. 决策树
B. 随机森林
C. AdaBoost
D. Gradient Boosting
(16)关于偏差-方差分解,以下说法正确的是:
A. Bagging主要减少偏差,Boosting主要减少方差
B. Bagging主要减少方差,Boosting主要减少偏差
C. 两者都主要减少偏差
D. 两者都主要减少方差
(17)关于集成学习的基本思想,以下说法正确的是:
A. 单一模型永远优于多个模型的组合
B. 通过结合多个学习器可以获得比单一学习器更优越的泛化性能
C. 集成学习只适用于分类问题,不适用于回归问题
D. 集成学习中各个基学习器必须使用相同的算法
(18)在Boosting算法中,基学习器之间的关系是:
A. 并行生成,相互独立
B. 串行生成,每个学习器关注前一个学习器错误的样本
C. 同时生成,然后投票决定
D. 随机生成,无特定关系
(19)AdaBoost算法中,第t轮样本权重更新的公式是:

(20)关于AdaBoost的注意事项,以下说法错误的是:
A. AdaBoost对噪声数据和异常值比较敏感
B. 随着迭代次数增加,AdaBoost容易过拟合
C. AdaBoost只能使用决策树作为基学习器
D. 需要调整学习率参数来控制每一步的权重更新幅度
(21)在AdaBoost实验中,通常需要观察哪个指标随迭代次数的变化?
A. 基学习器的数量
B. 训练误差和测试误差
C. 计算时间
D. 内存使用量
(22)Bagging与Boosting的主要区别在于:
A. Bagging使用并行生成基学习器,Boosting使用串行生成
B. Bagging使用串行生成基学习器,Boosting使用并行生成
C. 两者都使用串行生成基学习器
D. 两者都使用并行生成基学习器
(23)随机森林与Bagging的主要区别是:
A. 随机森林只使用决策树,而Bagging可以使用任何基学习器
B. 随机森林在训练每棵树时,不仅对样本进行自助采样,还对特征进行随机选择
C. 随机森林使用串行生成,Bagging使用并行生成
D. 随机森林只能用于分类问题,Bagging可以用于分类和回归
(24)随机森林中,关于"袋外错误率"(OOB error)的说法正确的是:
A. OOB error是使用全部训练数据计算的错误率
B. OOB error是使用测试数据计算的错误率
C. OOB error是使用每棵树未采样的样本作为验证集计算的错误率
D. OOB error只在所有树训练完成后计算一次
(25)在随机森林的生成过程中,每棵决策树通常是:
A. 完全生长的(不剪枝)
B. 高度剪枝的
C. 深度限制为1
D. 使用所有特征进行分裂
(26)关于随机森林的特点,以下说法正确的是:
A. 随机森林不容易过拟合,树的数量越多越好
B. 随机森林对噪声和异常值非常敏感
C. 随机森林不能提供特征重要性评估
D. 随机森林中每棵树的训练需要所有特征
答案:
1.A 2.A 3.B 4.C 5.A 6.B 7.B 8.C 9.B 10.C 11.B 12.B 13.B 14.D 15.A 16.B 17.B 18.B 19.A 20.C 21.B 22.A 23.B 24.C 25.A 26.A
2.简答题
(1)Boosting算法的基本思想是什么?
Boosting算法的基本思想是将多个弱学习器组合成一个强学习器 。它采用串行训练 方式,每个新的学习器都重点关注前一个学习器错误分类的样本 ,通过不断调整样本权重 分布,使得后续学习器能够逐步改进模型对难分类样本的预测能力,最终将所有弱学习器进行加权结合得到最终模型。
(2)Bagging算法的基本思想是什么?
Bagging(Bootstrap Aggregating)算法的基本思想是通过自助采样 法从原始训练集中生成多个不同的训练子集 ,在每个训练子集上独立训练一个基学习器 ,然后对所有基学习器的预测结果进行投票(分类)或平均(回归) 得到最终预测结果。这是一种并行集成方法。
(3)随机森林的基本思想
随机森林的核心思想 是Bagging + 随机特征选择。它在Bagging对数据进行行采样的基础上,进一步在每棵决策树进行节点分裂时,随机从全部特征的一个子集中选择最优分裂特征。这种双重随机性(数据随机、特征随机)进一步增强了基学习器的多样性和独立性,从而获得比普通Bagging更优的泛化性能、更强的抗过拟合能力及天然的特征重要性评估。
(4)随机森林与决策树的区别
随机森林与决策树是紧密相关但本质不同的两种机器学习模型,其区别主要体现在构建方式、性能与特性三个层面。(1)在构建方式与本质层面 :决策树是单一、确定的树状模型,通过递归划分特征空间构建;而随机森林是一个集成模型 ,通过构建大量决策树并通过投票或平均机制结合其预测结果。(2)在核心性能层面 :随机森林通过集成(Bagging) 和特征随机选择 有效降低了单一决策树固有的高方差,从而显著提升了模型的泛化能力与稳定性 ,大幅减少了过拟合风险;而单一决策树对训练数据细节敏感,极易过拟合。(3)在模型特性层面 :随机森林牺牲了部分可解释性 ,无法像单一决策树那样提供清晰直观的决策路径,但其提供了内置的特征重要性评估 和对缺失值、不平衡数据更强的鲁棒性 。同时,随机森林由于需要构建大量树,其训练和预测的计算开销远大于单一决策树。
(5)随机森林与普通Bagging的主要区别是什么?

(6)集成学习的主要目的是什么?
集成学习的主要目的是通过结合多个学习器的预测结果,获得比单个学习器更好的泛化性能、更高的稳定性和更强的鲁棒性。它可以减少模型的方差和/或偏差,降低过拟合风险,提高模型在未知数据上的表现。
(7)集成学习的多种结合策略
集成学习的结合策略决定了如何将多个基学习器的输出汇总为最终预测,主要分为三类:(1)平均法 :主要用于回归任务和概率输出的分类任务。包括简单平均 (所有学习器权重相等)和加权平均 (根据学习器的性能或可靠性赋予不同权重)。(2)投票法 :主要用于分类任务。包括绝对多数投票 (某类别票数过半则预测为该类,否则拒绝预测)、相对多数投票 (得票最多的类别获胜,最常用)和加权投票 (为每个学习器的投票赋予权重,权重高的学习器话语权更大)。加权投票是Boosting类算法的典型结合方式。(3)学习法 :通过另一个"元学习器"来学习如何结合基学习器的输出。代表方法是Stacking:首先用原始数据训练多个初级学习器,然后将它们的预测输出作为新的特征,再用一个新的次级学习器(如逻辑回归)基于这些新特征进行训练和最终预测。这种方法能更智能地捕捉不同基学习器之间的关系和优势。
(8)什么是弱学习器
弱学习器是指性能仅略好于随机猜测的学习器,通常其准确率略高于50%(对于二分类问题)。弱学习器本身分类能力不强,但多个弱学习器通过集成可以形成一个强学习器。在Boosting中,弱学习器是基础构建块。
(9)什么是基学习器,和弱学习器的区别


(10)请简述AdaBoost算法的核心思路与基本流程。

(11)AdaBoost算法中,每个基学习器的权重由什么决定?

(12)AdaBoost对哪些样本给予更高权重?为什么?
AdaBoost对之前基学习器错误分类的样本给予更高权重。这是因为AdaBoost的核心思想是让后续的学习器重点关注那些难以分类的样本。通过增加错误分类样本的权重,迫使下一个学习器更加努力地去正确分类这些困难样本,从而逐步改进整体模型的性能。
(13)使用AdaBoost时,一般选择什么样的基学习器?为什么?

(14)什么情况下适合使用随机森林而不是AdaBoost?请至少给出三种情况并说明理由。


(15)Boosting、Bagging与stacking基学习器的不同

(16)比较Boosting,Bagging和Stacking三种集成方法的训练过程有什么不同?请从训练方式、样本权重、基学习器关系三个方面进行比较。

(17)Bagging中使用的采样方法叫什么?简要描述该方法。
Bagging中使用的采样方法叫自助采样法(Bootstrap Sampling)。该方法是从原始训练集中有放回地随机抽取n个样本(n为原始训练集大小)形成一个训练子集。由于是有放回抽样,每个训练子集中大约包含63.2%的原始样本,剩下的36.8%的样本不会出现在该子集中,成为袋外样本。
(18)在Bagging中,每个基学习器之间是什么关系?(独立/依赖)这种关系有什么优点?

(19)Bagging主要降低模型的偏差还是方差?为什么?

(20)Boosting主要降低模型的偏差还是方差?为什么?

(21)Bagging对什么样的基学习器效果更好?请举例说明。

(22)随机森林在分裂节点时,通常如何选择特征?对于有p个特征的数据集,通常选择多少个特征?

(23)什么是袋外错误率(OOB error)?它有什么好处?


(24)对于一个有1000个样本,20个特征的二分类问题:1.如果使用随机森林,每棵树分裂时考虑几个特征比较合适?请解释为什么选择这个数量。


(25)如果发现AdaBoost模型在训练集上表现很好(准确率95%),但在测试集上表现较差(准确率70%),可能是什么原因?请至少给出三种可能的原因并简要解释。


(26)为什么在集成学习中,仅仅使用多个"表现优秀但完全相同"的模型进行组合,往往无法显著提升性能?请用"多样性"的概念解释。
因为完全相同的模型会对相同的输入产生高度相关甚至一致的预测结果与错误。集成学习的有效性依赖于多样性的误差互补机制------即不同基学习器在不同样本或特征上犯不同的错误,从而在集体决策时相互纠正。若模型完全相同,则错误也完全相同,集成无法降低系统性偏差,性能上限等同于单个模型。
(27)对比Bagging和Boosting两类集成方法在生成多样性机制上的本质区别。

(28)在构建随机森林时,除了对训练样本进行自助采样,还通常对每个决策树节点分裂时使用的特征进行随机子集选择。请解释这一操作如何进一步增强多样性,并说明其与普通Bagging中仅进行样本采样的区别。

(29)"准确性-多样性权衡"是集成学习的重要原则。请说明在AdaBoost算法中,这一权衡是如何通过调整样本权重和学习器权重来实现的。

(30)深度学习中常用的Dropout技术,在训练时随机"丢弃"神经网络中的部分神经元。试从集成学习的视角,解释Dropout如何隐含地实现了多样性。

3.计算题
(1)AdaBoost算法推导及权重更新


(2)袋外错误率


(3)随机森林的生成与特征重要性



九.聚类
1.选择题
(1)聚类分析的主要目标是:
A. 预测连续值
B. 将数据划分为有意义的组
C. 降低数据维度
D. 发现特征之间的关系
(2)以下哪个不是常见的聚类距离度量?
A. 欧氏距离
B. 曼哈顿距离
C. 余弦相似度
D. 均方误差
(3)对于数值型数据,最常用的距离度量是:
A. 杰卡德距离
B. 编辑距离
C. 欧氏距离
D. 余弦距离
(4)k均值算法中,k表示:
A. 数据维度
B. 聚类中心数量
C. 迭代次数
D. 样本数量
(5)k均值算法的停止条件通常不包括:
A. 达到最大迭代次数
B. 聚类中心不再变化
C. 所有样本分配不再变化
D. 目标函数值为0
(6)层次聚类的特点是:
A. 需要预先指定聚类数量
B. 产生嵌套的聚类结构
C. 对初始中心敏感
D. 计算复杂度低
(7)凝聚层次聚类是:
A. 自顶向下
B. 自底向上
C. 随机初始化
D. 基于密度
(8)DBSCAN算法属于:
A. 原型聚类
B. 密度聚类
C. 层次聚类
D. 网格聚类
(9)轮廓系数用于评估:
A. 聚类数量
B. 聚类质量
C. 计算时间
D. 内存使用
(10)k均值算法对什么类型的聚类形状效果最好?
A. 球形
B. 环形
C. 月牙形
D. 任意形状
(11)余弦相似度特别适合用于什么类型的数据?
A. 高维稀疏数据
B. 低维稠密数据
C. 时间序列数据
D. 图像数据
(12)k-means++的主要改进是:
A. 加快收敛速度
B. 改进初始中心选择
C. 支持增量学习
D. 处理非球形簇
(13)肘部法则主要用于确定:
A. 最佳距离度量
B. 最佳聚类数量
C. 最佳迭代次数
D. 最佳特征数量
(14)层次聚类的树状图称为:
A. 散点图
B. 热力图
C. 谱系图
D. 箱线图
答案:
1.B 2.D 3.C 4.B 5.D 6.B 7.B 8.B 9.B 10.A 11.A 12.B 13.B 14.C
2.简答题
(1)聚类的核心思想

(2)聚类的构建流程

(3)什么是聚类分析?它与分类有何区别?

(4)原型聚类、密度聚类与层次聚类的核心思想

(5)距离度量的方式

(6)k均值算法的基本思想

(7)简述k均值算法的基本步骤。

(8)k均值算法有哪些优缺点?
优点:
1.在算法效率上,它原理简单、实现容易、计算复杂度低,适合大规模数据;2.在收敛性能上,迭代次数少且收敛速度快;2.在扩展性上,支持分布式实现和小批量在线学习;3.在结果可解释性上,聚类中心作为簇的代表点便于理解和可视化。
缺点:
1.在参数设定方面,需要预先指定聚类数k,选择依赖先验经验;2.在初始值敏感性方面,对初始中心选择敏感,容易陷入局部最优;3.在数据适应性方面,对噪声和异常值敏感,仅适用于球形簇且受特征尺度影响;4.在结果质量方面,只能保证局部最优,需要多次运行取最佳结果。针对这些不足,可通过k-means++优化初始化、肘部法则确定k值等方法进行改进。
(9)K-mean与K-mean++的区别

(10)K-means++如何改进初始聚类中心的选择?


(11)解释层次聚类中"凝聚"和"分裂"两种方法的区别。


(12)什么是轮廓系数?如何计算?


(13)如何使用肘部法则确定k均值中的k值?

(14)在处理高维数据时,聚类面临什么挑战?如何解决?


3.计算题
(1)距离计算


(2)k均值迭代



(3)轮廓系数计算


(4)层次聚类


(5)DBSCAN密度聚类






十.降维和特征提取
1.选择题
(1)维度灾难(Curse of Dimensionality)主要指的是:
A. 计算复杂度随维度指数增长
B. 数据存储空间需求增大
C. 模型过拟合风险增加
D. 所有选项都正确
(2)在k近邻学习中,当特征维度很高时,最可能出现的问题是:
A. 计算速度太快
B. 所有样本点之间的距离变得相似
C. 模型欠拟合
D. 特征数量不足
(3)低维嵌入的主要目的是:
A. 增加数据维度
B. 减少计算时间
C. 在低维空间中保持原始数据的结构
D. 提高模型复杂度
(4)主成分分析(PCA)是一种:
A. 有监督的线性降维方法
B. 无监督的线性降维方法
C. 有监督的非线性降维方法
D. 无监督的非线性降维方法
(5)PCA中,第一主成分是:
A. 方差最小的方向
B. 方差最大的方向
C. 均值最大的方向
D. 与所有特征相关性最强的方向
(6)在PCA中,累计贡献率通常达到多少时被认为保留了足够信息?
A. 50%
B. 70-80%
C. 95-99%
D. 100%
(7)以下哪个不是常见的降维方法?
A. PCA
B. t-SNE
C. 随机森林
D. LDA
(8)t-SNE与PCA的主要区别在于:
A. t-SNE是有监督的
B. t-SNE是非线性的
C. t-SNE不能可视化
D. t-SNE只能降到2维
(9)对于文本数据的高维稀疏表示,适合使用:
A. PCA
B. LDA
C. 随机投影
D. 所有选项都正确
(10)在低维嵌入中,MDS(多维缩放)主要保持的是:
A. 局部结构
B. 全局距离
C. 类别信息
D. 时间序列信息
答案:
1.D 2. B 3. C 4. B 5. B 6.C 7. C 8. B 9. D 10. B
2.简答题

(1)什么是"维度灾难"?它对机器学习有什么影响?



(2)降维和低维嵌入的基本思想和区别

(3)k近邻算法的基本思想

(4)k均值算法和k近邻算法

(5)简述k近邻算法的基本步骤。

(6)简述k近邻算法在高维空间中的问题。



(7)PCA算法的思想

(8)PCA与LDA比较

(9)PCA与-SNE比较

(10)为什么PCA前需要中心化数据?

3.计算题
(1)计算协方差矩阵





(2)PCA特征值分析


(3)将二维数据点转为一维坐标z


原始数据:每个样本用两个坐标 (x,y) 表示。
降维后 :每个样本只用一个数 z 表示,这个数就是样本在主成分方向上的"位置"。
几何意义:把二维平面上的点投影到一条直线(第一主成分方向)上,投影点的坐标就是 z。
(4)求主成分方向与降维






(5)K近邻算法



(6)维数灾难与距离计算




