目录
根据西瓜书,按章节总结,适用于期末考试 。只总结选择题和简答题,其他题型可以自行延伸。某些题目考得比较深,根据自己的考试范围,选择性地看即可。可以先看简答,再看选择。
简答题参考AI给出的标准答案,这样比较全面且不容易出错,记忆的时候可以重点记忆关键点。
一.绪论
1.选择题
(1)特征工程的主要目的是什么?
A) 收集更多数据
B) 将原始数据转换为更适合机器学习模型的特征
C) 训练更好的模型
D) 评估模型性能
(2)以下场景中,最适合使用无监督学习方法的是:
A. 根据病人的医学影像数据,判断其是否患有恶性肿瘤
B. 根据用户的购物历史和行为数据,将其划分到不同的客户群体
C. 根据房屋的面积、位置、房龄等特征,预测其市场价格
D. 根据一封邮件的内容,判断其是否为垃圾邮件
**(3)**目标检测任务通常属于:
A) 纯监督学习
B) 纯无监督学习
C) 半监督学习
D) 强化学习
(4)机器学习中的"特征"(Feature)指的是:
A) 模型的输出结果
B) 数据的输入变量
C) 模型的参数
D) 评估指标
**(5)**在监督学习中,"标签"(Label)的作用是:
A) 描述数据的特征
B) 告诉模型期望的输出
C) 划分训练集和测试集
D) 评估模型性能
(6)高质量数据应具备的特性不包括:
A) 准确性
B) 完整性
C) 大规模性
D) 一致性
(7)训练集(Training Set)的主要作用是:
A) 调整模型超参数
B) 让模型学习数据中的模式
C) 评估最终模型性能
D) 进行模型比较
(8)验证集(Validation Set)主要用于:
A) 训练模型参数
B) 调整模型超参数
C) 最终性能评估
D) 特征选择
(9)测试集(Test Set)的正确使用方式是:
A) 在模型开发过程中多次使用
B) 只在最终评估时使用一次
C) 用于特征工程
D) 用于数据预处理
(10)以下哪个是无监督学习的典型应用?
A) 手写数字识别
B) 情感分析
C) 市场篮子分析(购物篮分析)
D) 股票价格预测
(11)强化学习与监督学习的主要区别在于:
A) 是否有明确的输入输出对
B) 是否使用神经网络
C) 是否需要大量计算资源
D) 是否处理结构化数据
(12)一家电商平台希望利用机器学习改进用户体验,提出了以下四个具体项目。其中,哪一个项目必须依赖于监督学习技术来实现?
A. "商品自动归类":将平台新上传的、未分类的商品图片,根据视觉相似性自动分组,便于后续管理。
B. "客户细分画像":根据用户的浏览、购买和点击行为,将全体用户划分为几个具有不同特征的群体。
C. "异常订单检测":识别出在支付、物流或地址信息上模式异常的订单,以防范欺诈。
D. "评论评分预测":根据用户撰写的评论文本,预测该用户会给出的1-5星星级评分。
答案:
1.B 2.D 3.A 4.B 5.B 6.C 7.B 8.B 9.B 10.C 11.A 12.D
2.简答题
基本概念:
(1)特征与标签
**特征:**描述数据的属性。
标签: 是模型要预测的目标值,也就是期望的输出,模型通过特征与标签之间的关系进行学习。
(2)数据集
数据集是进行机器学习或统计分析所依据的数据集合,其核心目的是为模型提供学习材料。它通常可以理解为一个数据矩阵或表格,其结构包含两个基本维度:第一,每一行代表一个样本 (也称为实例、数据点),即一个被观察和描述的具体对象;第二,每一列代表一个特征 (也称为属性、变量),即从某个特定方面描述样本的度量指标。一个完整的数据集通常被划分为三个独立部分用于不同的目的:(1)训练集 ,用于直接训练和拟合模型;(2)验证集 ,用于在训练过程中调整模型超参数和选择最佳模型;(3)测试集,用于在最终阶段无偏地评估模型的泛化性能。
(3)监督学习/无监督学习
机器学习根据训练数据是否包含人工标注的"答案",主要分为两大类。(1)监督学习 :其使用的数据集中的每一个样本都包含特征向量 和与之对应的标签 (或称目标值)。算法的目标是学习一个从特征到标签的映射函数,以对新样本的标签进行预测。根据标签的类型,它又可分为回归 (预测连续数值)和分类 (预测离散类别)任务。(2)无监督学习 :其使用的数据集仅包含特征向量,没有预先给定的标签 。算法的目标是从数据本身发现内在的结构、模式或分布。其主要任务包括聚类 (将相似样本分组)、降维 (在保留主要信息的前提下减少特征数量)和关联分析(发现特征之间的共存规律)。
(4)样本空间
样本空间是概率论中的基本概念,记作Ω或S。它被定义为一个随机试验所有可能基本结果的集合 ,这个集合中的每一个元素称为一个样本点 。根据样本点的性质和数量,样本空间可以分为三种类型:(1)有限样本空间 ,包含有限个样本点,如掷一枚骰子的结果集 {1, 2, 3, 4, 5, 6};(2)无限可数样本空间 ,包含可数无限个样本点,如记录抛硬币直到出现正面所需次数的集合 {1, 2, 3, ...};(3)无限不可数样本空间,包含不可数无限个样本点(通常是连续区间),如测量某零件长度的可能值集合 [10.0, 10.5] cm。任何我们关心的事件,都是这个样本空间的一个子集。
(5)特征维度与特征向量的基本概念
在数据表示中,特征 是描述样本某个属性的单一度量。一个样本的全部特征值按固定顺序组合起来,就构成了该样本的特征向量 ,在数学上表示为一个形如 x = [x₁, x₂, ..., x_d]^T 的d维列向量。这里的 特征维度 就是指这个向量中的特征数量 d 。关于维度,需要理解三个关键点:(1)它定义了描述一个样本所需的变量个数 ,决定了数据的表达容量;(2)低维数据直观易处理,但信息可能不足 ;(3)高维数据蕴含信息更丰富,但极易引发"维数灾难",即数据在高维空间中变得极其稀疏,导致距离计算失效、模型复杂度过高和过拟合风险增大。
(6)正则化
在机器学习中,正则化是一种旨在防止模型过拟合、提高其泛化能力的技术 。其核心思想是在损失函数中引入一个与模型复杂度相关的惩罚项(正则化项),从而在优化过程中对模型参数进行约束或平滑 。具体而言:(1)目的 :正则化通过牺牲一部分在训练集上的拟合精度(经验风险),来换取模型结构的简化(降低复杂度),从而控制模型的容量,使其更倾向于学习到数据中更普遍的模式而非噪声。(2)常见形式:在线性模型中,L1正则化(Lasso)倾向于产生稀疏的权重向量,可用于特征选择;L2正则化(Ridge)则使权重参数向零收缩,使模型更加平滑。
(1)机器学习的一般过程:
1.确定模型的一组超参数;
2.用训练集训练该模型,找到使损失函数最小的最优函数;
3.在验证集上对最优函数的性能进行度量;
4.重复1、2、3步,直到搜索完指定的超参数组合;
5.选择在验证集上误差最小的模型,并合并训练集和验证集作为整体训练模型,找到最优函数;
6.在测试集上对最优函数的泛化性能进行度量。
(2) 监督学习、无监督学习和半监督学习的主要区别是什么?请各举一个例子。
三种学习方式的主要区别如下:
(1)监督学习:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。任务是学习从特征到标签的映射关系。例如:垃圾邮件分类。
(2)无监督学习 :输入的数据集只有特征数据没有标签,需要根据样本间的相似性对样本集进行类别划分。在算法构建过程中不考虑标签值,只通过特征信息去归纳一些新的规律出来。例如:客户细分聚类。
(3)半监督学习:结合少量有标签数据和大量无标签数据进行学习。例如:医学图像分析中只有部分图像有医生标注。
监督学习和无监督学习的根本区别在于是否有标签指导学习过程,半监督学习则是两种方式的折中方案。
(3)为什么需要将数据集划分为训练集、验证集和测试集?
划分数据集的必要性体现在:
(1)训练集用于学习模型参数,让模型掌握数据规律。
(2)验证集用于模型选择和超参数调优,提供模型比较的平台,并监控模型的泛化能力,从而避免过拟合。
(3)测试集用于最终性能评估,反映模型在真实场景中的表现。
如果不划分数据集,会导致模型在训练数据上过拟合,无法客观评估泛化能力。测试集应只使用一次,确保评估的公正性。
(4)什么是过拟合和欠拟合?如何识别和解决?
过拟合 指模型在训练集上表现很好,但在新数据上表现差。原因是模型过于复杂,学习了数据中的噪声。识别:训练误差 远小于验证误差。解决:简化模型、增加数据、正则化、早停法等。
欠拟合 指模型在训练集和新数据上都表现不佳。原因是模型过于简单,未能捕捉数据规律。识别:训练误差 和验证误差都很大且接近。解决:增加模型复杂度、增加特征、减少正则化、延长训练时间。
(5)特征工程是什么,为什么在机器学习中很重要?
特征工程是指将原始数据通过一系列处理、转换和构造方法,转换为更适合机器学习模型理解和学习的特征的过程。其主要步骤包括特征提取、特征转换、特征选择和特征构造。
重要性:
(1)决定模型性能上限:好的特征能使简单模型获得好效果。
(2)原始数据不适合直接输入模型,需要转化为有意义的特征。
(3)能显著提升模型的准确性和泛化能力。
(4)有助于模型理解和可解释性。
例如在房价预测中,从"建造年份"构造出"房龄"特征,往往比原始特征更有预测力。
(6) 机器学习主要有哪些类型的任务?请举例说明。
机器学习主要任务类型包括:
(1)分类任务:预测离散类别。例如:疾病诊断(阳性/阴性)。
(2)回归任务:预测连续数值。例如:房价预测。
(3)聚类任务:将相似数据分组。例如:客户细分。
(4)降维任务:减少特征数量保留重要信息。例如:PCA主成分分析。
(7)什么是强化学习?它与监督学习有何不同?
强化学习是通过与环境交互、根据获得的奖励学习决策策略的方法。
与监督学习的主要区别包括:
数据形式不同:监督学习使用明确的输入 - 输出对作为训练数据,每个样本都有对应的正确答案;强化学习则没有这种预先定义的输入输出对,而是通过试错探索获得经验。
反馈机制不同:监督学习有即时的、明确的标签指导;强化学习获得的是延迟的、稀疏的奖励信号,且奖励通常具有随机性。
问题结构不同:强化学习是序列决策问题,当前决策影响后续状态和奖励;监督学习处理的是独立同分布的样本。
学习目标不同:强化学习目标是最大化长期累积奖励;监督学习目标是最小化预测误差
二.模型的评估与选择
1.选择题
(1)错误率的计算公式是:
A) (正确预测数)/(总样本数)
B) (错误预测数)/(总样本数)
C) (真正例数)/(真正例数+假正例数)
D) (真正例数)/(真正例数+假反例)
(2)精度(Accuracy)的局限性主要体现在:
A) 无法计算
B) 在类别不平衡时可能误导
C) 只能用于二分类问题
D) 对模型评估没有意义
(3)查准率(Precision)关注的是:
A) 所有正例中被正确预测的比例
B) 预测为正例中真正正例的比例
C) 所有样本中被正确预测的比例
D) 预测为负例中真正负例的比例
(4)查全率(Recall)关注的是:
A) 预测为正例中真正正例的比例
B) 所有正例中被正确预测的比例
C) 所有负例中被正确预测的比例
D) 预测为负例中真正负例的比例
(5)在医疗诊断中(如癌症检测),我们通常更重视:
A) 查准率
B) 查全率
C) 精度
D) 错误率
(6)F1分数是查准率和查全率的:
A) 算术平均数
B) 几何平均数
C) 调和平均数
D) 加权平均数
(7)PR曲线(Precision-Recall曲线)纵轴是:
A) 查准率
B) 查全率
C) 真正例率
D) 假正例率
(8)ROC曲线纵轴是:
A) 真正例率(TPR)
B) 假正例率(FPR)
C) 查准率
D) 查全率
(9)AUC值表示:
A) ROC曲线下的面积
B) PR曲线下的面积
C) 分类阈值
D) 错误率
(10)留出法(Hold-out)的主要缺点是:
A) 计算复杂
B) 需要大量数据
C) 评估结果受数据划分影响大
D) 只能用于线性模型
(11) 自助法(Bootstrap)中,一个样本在m次采样中始终不被采到的概率约为:
A) 0.368
B) 0.5
C) 0.632
D) 0.95
(12)以下哪种情况最适合使用交叉验证?
A) 数据量非常大
B) 数据量有限
C) 实时预测系统
D) 不需要模型评估
(13)当查准率和查全率都很重要且需要平衡时,应该使用:
A) 精度
B) F1分数
C) 错误率
D) AUC
(14)在垃圾邮件过滤中,我们通常更重视:
A) 查准率(避免误判正常邮件)
B) 查全率(抓住所有垃圾邮件)
C) 精度
D) 错误率
(15)真正例(True Positive)表示:
A) 正例被正确预测为正例
B) 负例被错误预测为正例
C) 正例被错误预测为负例
D) 负例被正确预测为负例
(16)在5折交叉验证中,数据集被分为5份,需要进行几次训练和验证?
A) 1次
B) 5次
C) 10次
D) 25次
(17)以下哪个指标受类别不平衡问题影响最小?
A) 精度(Accuracy)
B) F1分数
C) AUC-ROC
D) 查准率(Precision)
(18)当查准率和查全率都等于0.8时,F1分数是:
A) 0.64
B) 0.8
C) 1.0
D) 0.5
(19)在ROC曲线中,对角线(从(0,0)到(1,1))表示:
A) 完美分类器
B) 随机猜测的分类器
C) 最差分类器
D) 实际分类器
(20)自助法(Bootstrap)的主要优点是:
A) 计算简单快速
B) 适用于大规模数据集
C) 在小数据集上也能有效评估
D) 结果不受随机性影响
(21)在二分类问题中,真正例率(TPR)的计算公式是:
A) TP/(TP+FP)
B) TP/(TP+FN)
C) TN/(TN+FP)
D) FP/(FP+TN)
(22)假正例率(FPR)的计算公式是:
A) FP/(FP+TN)
B) TP/(TP+FN)
C) FP/(FP+TP)
D) FN/(FN+TP)
(23)当AUC值为0.5时,表示模型:
A) 完美分类
B) 比随机猜测稍好
C) 等同于随机猜测
D) 完全错误分类
(24)以下哪种情况最适合使用精度(Accuracy)作为主要评估指标?
A) 正负样本比例1:99
B) 正负样本比例1:1
C) 只关心正例的预测准确性
D) 数据量非常小
(25)交叉验证中,k值的选择应该考虑:
A) 总是选择k=10
B) 数据量越大,k值越大
C) 数据量越小,k值越大
D) 与数据量无关
(26)留一法交叉验证是k折交叉验证的特例,其中k等于:
A) 样本数量的平方根
B) 样本数量
C) 特征数量
D) 10
(27)当我们在同一个验证集上反复调整模型参数时,最可能导致:
A) 欠拟合
B) 过拟合验证集
C) 加快训练速度
D) 提高测试集性能
(28)在推荐系统中,如果希望尽可能减少误推荐(推荐用户不喜欢的物品),应该重点关注:
A) 查全率(Recall)
B) 查准率(Precision)
C) 精度(Accuracy)
D) 错误率(Error Rate)
答案:
1.B 2.B 3.B 4.B 5.B 6.C 7.A 8.A 9.A 10.C 11.A 12.B 13.B 14.A 15.A 16.B 17.C 18.B 19.B 20.C 21.B 22.A 23.C 24.B 25.C 26.B 27.B 28.B
2.简答题
基本概念:
(1)经验误差的概念
经验误差,也称为训练误差,是指学习器在训练数据集上的误差 ,即模型对已知训练样本的预测值与真实值之间的差异程度。它是衡量模型拟合训练数据好坏 的指标。其计算方式取决于任务类型:(1)在分类任务中 ,经验误差通常指错误分类的样本数占总样本数的比例(错误率);(2)在回归任务中,则常使用均方误差等损失函数来度量。经验误差小,说明模型对训练数据的学习效果好,但这并不能保证模型在未见过的数据上(即泛化能力)同样表现良好,因为模型可能只是"记住了"训练数据。
(2)训练误差与测试误差的区别
测试误差与训练误差是评估模型性能的两个关键但意义不同的指标。(1)训练误差(经验误差) :是模型在训练集 上的误差,反映了模型对已知数据的拟合程度。一个低的训练误差意味着模型"学得好"了训练数据。(2)测试误差(泛化误差) :是模型在独立的、未参与训练的测试集 上的误差,反映了模型对未知新数据的预测能力,即泛化能力 。理想情况是两者都低且接近。如果训练误差低但测试误差很高,表明发生了过拟合 ;如果两者都高,则表明发生了欠拟合 。因此,模型选择的最终目标是获得最低的测试误差,而不是最低的训练误差。
(3)准确率,精确率,灵敏度,特异性,错误率:
错误率: 错误率是分类错误的样本数占总样本数的比例,是衡量模型整体分类错误程度的最直观指标。
(3)偏差、方差和噪声的概念
噪声则反映了数据本身的不可约减的随机性误差。
(1)解释过拟合和欠拟合的概念,说明各自的产生原因、识别方法和解决方法。
过拟合和欠拟合是机器学习模型训练中常见的两种不良状态。
过拟合指模型在训练集上表现很好,但在新数据(验证集/测试集)上表现显著下降的现象。产生原因包括模型过于复杂、训练数据不足、训练时间过长、噪声过多等。识别方法为观察训练误差远小于验证误差。解决方法包括:简化模型结构、增加训练数据、使用正则化技术(L1/L2正则化)、采用早停法、使用Dropout技术、进行特征选择等。
欠拟合指模型在训练集和新数据上都表现不佳的现象。产生原因包括模型过于简单、特征不足、正则化过强等。识别方法为训练误差和验证误差都较高且接近。解决方法包括:增加模型复杂度、增加更多有效特征、减少正则化强度、延长训练时间、使用更复杂的算法等。
(2)详细说明k折交叉验证的步骤和优缺点。
k折交叉验证是一种常用的模型评估方法,具体步骤如下:
将原始数据集随机划分为k个大小相等(或近似相等)的互斥子集
进行k轮训练和验证,每轮使用其中一个子集作为验证集,其余k-1个子集作为训练集
每轮得到一个模型性能评估结果
计算k轮评估结果的平均值作为最终性能评估
**优点:**1.充分利用数据,减少因数据划分带来的随机性影响。2.评估结果相对稳定可靠。3.特别适合数据量有限的情况。4.可用于模型选择和超参数调优。
**缺点:**1.计算成本较高,需要训练k次模型。2.不适合大规模数据集。3.结果仍受数据划分影响,不同划分可能得到不同结果。4.需要合理选择k值(通常k=5或10)。
(3)对比查准率(Precision)和查全率(Recall)的区别,说明在什么场景下应该更重视哪个指标。
查准率和查全率是二分类问题中两个重要的评估指标,它们的区别如下:
查准率(精确率):关注预测结果的质量,计算公式为预测为正例中真正为正例的比例,即Precision = TP/(TP+FP)。它衡量的是预测为正例的样本中有多少是真正的正例。
查全率(召回率):关注正例样本的覆盖程度,计算公式为真正正例中被预测为正例的比例,即Recall = TP/(TP+FN)。它衡量的是所有真正的正例中有多少被正确预测出来。
应用场景差异:
更重视查准率的场景:垃圾邮件过滤(宁愿漏判也不误判正常邮件)、推荐系统(减少误推荐)、法律判决(避免冤案)
更重视查全率的场景:疾病筛查(宁可误检也不漏检)、安全隐患检测、信息检索(尽量找回所有相关文档)
需要平衡的场景:产品质量检测、金融风控,此时通常使用F1分数(查准率和查全率的调和平均数)作为综合指标
补充:P-R曲线
P-R曲线是评估二分类模型性能的核心工具,尤其适用于正负样本不平衡的场景。其核心在于展示模型在不同决策阈值下,查全率与查准率之间的动态权衡关系。第一,曲线以查全率为横轴 ,表示模型找出所有正例的能力;以查准率为纵轴 ,表示模型预测结果的可靠性。第二,通过连续调整分类阈值 ,可得到一系列点,连结成曲线;曲线越凸向右上角、其下方的平均精度(AP)值越大,表明模型综合性能越优。第三,与ROC曲线相比,P-R曲线对类别分布高度倾斜的数据集更敏感,能更真实地反映模型在稀缺正例上的识别效果,为医疗诊断、欺诈检测等关键领域提供直接的阈值选择依据。
、
F1分数
比P-R曲线平衡点更常用的是F1度量。 F1分数是精确率和召回率的调和平均数,用于综合评估模型在精确率和召回率这两个相互制约的指标上的平衡表现。当精确率和召回率都重要,且需要用一个单一数值来评价时,F1分数非常有用。
F1是基于P和R的调和平均,FB是加权调和平均
(4)什么是混淆矩阵?画出二分类问题的混淆矩阵,并解释其中每个元素的含义。
混淆矩阵是一种用于评估分类模型性能的表格,以矩阵形式展示实际类别与预测类别之间的关系。

TP(True Positive,真正例):实际为正例,预测也为正例,预测正确
FN(False Negative,假反例):实际为正例,预测为负例,预测错误(漏报)
FP(False Positive,假正例):实际为负例,预测为正例,预测错误(误报)
TN(True Negative,真反例):实际为负例,预测也为负例,预测正确
(5)解释ROC曲线和AUC的意义,说明如何根据ROC曲线判断模型性能。
ROC曲线(Receiver Operating Characteristic Curve)是一种用于评估二分类模型性能的图形化工具,其横轴为假正例率(FPR = FP/(FP+TN)),纵轴为真正例率(TPR = TP/(TP+FN),即查全率)。
**AUC(Area Under Curve)**是ROC曲线下的面积,取值范围在0到1之间:
AUC=1:完美分类器
0.5<AUC<1:优于随机猜测
AUC=0.5:等同于随机猜测
AUC<0.5:差于随机猜测(实际中可将预测反转)
根据ROC曲线判断模型性能的方法:1.曲线位置 :曲线越靠近左上角(即TPR越高,FPR越低),模型性能越好。2.AUC值大小 :AUC值越大,模型整体性能越好。3.曲线形状 :曲线下面积越大,表示模型在不同阈值下的综合表现越好。4.与对角线的比较:ROC曲线位于对角线上方表示优于随机猜测,越远离对角线性能越好。
ROC曲线的优点是对类别不平衡不敏感,可以直观展示模型在不同阈值下的性能权衡。

(6)对比留出法、交叉验证法和自助法三种评估方法的优缺点和适用场景。
三种方法对比如下:
留出法:
方法:将数据集划分为互斥的训练集和测试集,常用比例如7:3或8:2
优点:简单快速,计算成本低
缺点:评估结果受数据划分影响大,数据利用率低
适用场景:数据量充足,需要快速评估的场合
交叉验证法:
方法:将数据集分成k个互斥子集,轮流用k-1个子集训练,1个子集验证,重复k次
优点:评估结果稳定,数据利用率高,减少随机性影响
缺点:计算成本高,需训练k次模型
适用场景:数据量有限,需要稳定评估结果的场合
自助法:
方法:从原始数据集中有放回地随机抽取m个样本作为训练集,未被抽到的样本作为测试集
优点:适合小数据集评估,能产生多个不同的训练集
缺点:改变了原始数据分布,可能引入估计偏差
适用场景:数据量很小,其他方法难以应用的场合
数据量大时可用留出法快速评估;数据量适中时用交叉验证获得稳定评估;数据量很小时可考虑自助法。实际应用中k折交叉验证是最常用且相对可靠的方法。
3.计算题
(1)偏差-方差



(2)混淆矩阵



补充:

三.线性模型
1.选择题
(1)最小二乘法用于线性回归的参数估计,其目标是:
A) 最大化似然函数
B) 最小化预测误差的绝对值之和
C) 最小化预测误差的平方和
D) 最大化相关系数
(2)对数线性回归通过对哪个变量取对数来处理非线性关系?
A) 自变量
B) 因变量
C) 回归系数
D) 误差项
(3)对数几率回归(Logistic Regression)实际用于解决什么类型的问题?
A) 回归问题
B) 二分类问题
C) 多分类问题
D) 聚类问题
(4)逻辑回归中使用的激活函数是:
A) ReLU函数
B) Sigmoid函数
C) Tanh函数
D) Softmax函数
(5)在多分类学习中,"一对其余"策略的主要缺点是:
A) 计算复杂度过高
B) 可能产生类别不平衡问题
C) 只能用于二分类问题
D) 需要大量内存
(6)处理类别不平衡问题时,以下哪种方法不是常用的?
A) 过采样少数类
B) 欠采样多数类
C) 调整类别权重
D) 增加模型复杂度
(7)线性回归的正规方程解的公式是:

(8)均方误差(MSE)的计算公式是:

(9) R²(决定系数)的取值范围是:

注 :
取值范围(
],通常取[0,1]
(10)梯度下降法中,学习率过大可能导致:
A) 收敛速度过慢
B) 在最优解附近震荡
C) 陷入局部最优解
D) 无法收敛
(11)逻辑回归在scikit-learn中的API类是:
A) LinearRegression
B) LogisticRegression
C) SGDClassifier
D) DecisionTreeClassifier
(12)对于手写数字识别(0-9),逻辑回归应该使用:
A) 二分类逻辑回归
B) 一对多(OvR)策略
C) 一对一(OvO)策略
D) Softmax回归(多项逻辑回归)
(13)以下哪个是线性回归的假设?
A) 特征之间相互独立
B) 误差项服从正态分布
C) 因变量与自变量呈线性关系
D) 所有以上都是
答案:
1.C 2.B 3.B 4.B 5.B 6.D 7.A 8.C 9.A 10.D 11.B 12.D 13.D
2.简答题
(1)线性模型的构建流程
线性模型的构建是一个系统化的过程,主要包含以下关键步骤:(1)问题定义与数据准备 :明确任务是回归还是分类,并收集和清理数据。(2)特征工程 :这是核心环节,包括选择对目标变量有预测力的特征、处理缺失值和异常值,并对特征进行必要的变换(如多项式扩展)或标准化,以使数据符合线性模型的假设。(3)模型选择与训练 :根据任务选择具体的线性模型(如线性回归、逻辑回归),使用训练数据通过优化算法(如最小二乘法、梯度下降)来拟合模型参数(权重和偏置),其目标是最小化损失函数 (如均方误差、交叉熵)。(4)模型评估与调优 :在独立的验证集上评估模型性能,根据评估指标(如R²、准确率、AUC)判断是否过拟合或欠拟合,并可能通过正则化 (如L1/L2)调整模型复杂度,或返回步骤(2)优化特征。(5)最终测试与部署:在从未使用过的测试集上进行最终评估,确认性能后部署模型进行预测。
(2)最小二乘法与梯度下降法的区别
最小二乘法和梯度下降都是用于优化模型参数的方法,区别如下:

(3)解释线性回归的基本原理和最小二乘估计方法,并说明其优缺点。

(4)比较线性回归和对数几率回归(逻辑回归)的异同,包括模型形式、应用场景和参数估计方法。

(5)详细说明梯度下降法的原理和步骤,比较批量梯度下降、随机梯度下降和小批量梯度下降的特点。


(6)解释多分类学习中的"一对其余"和"一对一"两种策略,比较它们的优缺点。


补充:
多分类模型剩下一种策略为"多对多"策略,每次将若干类作为正类,其余作为负类。最常用的是纠错输出码,通过设计的编码矩阵对类别进行划分,具有一定的容错能力。
(7)什么是类别不平衡问题?列举三种处理方法并说明原理。
类别不平衡问题是指在分类任务中,不同类别的样本数量差异悬殊,导致分类器倾向于预测多数类,从而影响对少数类的识别性能。

(8)解释MSE、MAE和R²三个回归评估指标的意义和计算公式,说明各自的适用场景。


补充:
在第十章:降维和特征提取,有一种经典的监督降维方法:LDA(线性判别分析):
线性判别分析是一种经典的监督降维和分类方法 。其核心思想是为分类服务,寻找一个最佳投影方向,使得投影后的数据满足:同类样本的投影点尽可能接近,异类样本的投影点尽可能远离 。具体而言:(1)目标函数 :LDA通过最大化"类间散度"与"类内散度"的比值来求解最优投影方向,这个比值称为广义瑞利商 。(2)核心假设 :LDA假设每个类别的数据都服从高斯分布 ,且所有类别的协方差矩阵相同 。在此假设下,其推导出的分类决策边界是线性的。(3)应用与输出:对于 C 个类别的分类问题,LDA最多可以找到 C−1 个有效的判别方向(即降维后的新特征),从而实现有效降维。因此,它既可以直接用作分类器,也可以作为特征提取器,为后续的分类模型(如逻辑回归)提供更具判别性的低维特征。
3.计算题
(1)线性回归







(2)逻辑回归概率计算


(3)对数几率与几率计算


4.设计机器学习方案





四.决策树
1.选择题
(1)决策树学习的基本流程是:
A) 特征选择 → 剪枝 → 树生成
B) 数据预处理 → 树生成 → 剪枝 → 特征选择
C) 树生成(递归划分) → 剪枝(防止过拟合)
D) 剪枝 → 特征选择 → 树生成
(2)决策树划分选择的核心目标是:
A) 最大化节点纯度
B) 最小化树深度
C) 最大化特征数量
D) 最小化计算时间
(3)ID3算法使用的划分准则是:
A) 信息增益
B) 增益率
C) 基尼指数
D) 均方误差
(4) 信息增益的局限性是:
A) 对取值数目少的特征有偏好
B) 对取值数目多的特征有偏好
C) 计算复杂度过高
D) 不适合分类问题
(5)C4.5算法使用什么准则来改进信息增益的问题?
A) 基尼指数
B) 增益率
C) 信息增益比
D) B和C都正确
(6)基尼指数表示:
A) 从数据集中随机抽取两个样本,其类别不一致的概率
B) 样本集合的混乱程度
C) 特征的信息含量
D) 决策树的预测精度
(7)预剪枝的主要特点是:
A) 生成完整树后再剪枝
B) 边生成树边判断是否继续划分
C) 需要额外的验证集
D) 可能导致欠拟合
(8)后剪枝相比预剪枝的主要优势是:
A) 计算更简单
B) 训练时间更短
C) 决策树更复杂
D) 欠拟合风险更小
(9)CART算法可以用于:
A) 分类问题
B) 回归问题
C) 分类和回归问题
D) 聚类问题
(10)决策树处理连续特征的方法是:
A) 直接作为划分点
B) 离散化为区间
C) 找到最优切分点
D) B和C都正确
(11)决策树的优点不包括:
A) 可解释性强
B) 对缺失值不敏感
C) 不需要数据预处理
D) 能够处理非线性关系
(12)在剪枝过程中,验证集用于:
A) 计算信息增益
B) 评估剪枝前后模型的泛化性能
C) 选择最优划分特征
D) 确定树的深度
(13)关于信息增益,以下说法正确的是:
A) 信息增益 = 父节点信息熵 - 子节点信息熵加权和
B) 信息增益总是大于等于0
C) 信息增益对取值数目多的特征有偏好
D) 所有以上都正确
(14)增益率(Gain Ratio)的分母是:
A) 特征的信息熵
B) 特征的固有值
C) 特征的基尼指数
D) 特征的方差
(15)基尼指数越小表示:
A) 节点纯度越低
B) 节点纯度越高
C) 特征越不重要
D) 树深度越大
(16)预剪枝中常用的停止条件包括:
A) 节点样本数小于阈值
B) 节点样本属于同一类
C) 特征的信息增益小于阈值
D) 所有以上都是
(17)CART算法生成的是:
A) 多叉树
B) 二叉树
C) 三叉树
D) 根据特征决定
(18)决策树处理回归问题时使用:
A) 信息增益
B) 增益率
C) 基尼指数
D) 均方误差
(19)后剪枝的CCP(代价复杂度剪枝)中,α参数表示:
A) 学习率
B) 复杂度惩罚系数
C) 信息增益阈值
D) 树的深度
(20)关于决策树的特征选择,以下说法错误的是:
A) 信息增益准则倾向于选择取值数目较多的特征
B) 增益率准则通过除以特征的固有值来校正信息增益的偏好
C) 基尼指数准则与信息增益有相同的特征偏好
D) CART算法在分类问题中使用基尼指数,在回归问题中使用均方误差
答案:
1.C 2. A 3. A 4. B 5. D 6. A 7.B 8. D 9. C 10. D 11. C 12. B 13.D 14.B 15.B 16.D 17.B 18.D 19.B 20.C
2.简答题
(1)详细说明决策树学习的基本流程(递归生成过程)。

(2)决策树的核心思想
决策树的核心思想是通过一系列"if-then"规则对数据进行层层划分,从而模拟人类的决策过程 。其本质可以概括为三点:(1)"分而治之" :通过不断提出关于特征的问题,将复杂的决策问题分解为一系列更简单的子问题,最终到达一个可以直接给出结论的叶节点。(2)构建最优的"特征提问顺序" :其学习目标是通过选择最佳的特征划分点,使得划分后子节点的样本尽可能"纯" ,即同一节点内的样本尽可能属于同一类别或具有相似的值。(3)最终形成一个树状的分类/回归规则集合 :从根节点到任意叶节点的一条路径,对应着一条由特征测试组成的决策规则,整个树就是所有可能规则的集合,具有直观、可解释性强的特点。
(3)信息增益、增益率和基尼指数三种划分准则:
这三个指标是决策树进行特征选择 时最常用的准则,用于量化划分后数据"纯度"的提升。(1)信息增益 :基于信息论中的熵,其值等于划分前数据集的熵减去划分后各子集熵的加权和。信息增益越大,意味着使用该特征划分所带来的不确定性减少越多。其缺点是会对取值数目多的特征有偏好 。(2)信息增益率 :为了克服信息增益的缺点,它在信息增益的基础上,除以该特征本身的"分裂信息"(即特征取值的熵),作为惩罚项。这有效减少了对多值特征的偏好 ,使选择更平衡,C4.5算法使用此准则。(3)基尼指数 :从概率角度衡量数据的不纯度,定义为从数据集中随机抽取两个样本,其类别标记不一致的概率。基尼指数越小,数据集纯度越高。CART树使用基尼指数最小化作为特征选择准则,其计算比熵更简单高效,且通常效果相似。
(4)ID3算法的流程
ID3算法是一种基于信息增益的决策树构建算法,其核心流程可概括为以下递归步骤:第一,计算当前数据集中所有特征的信息增益,选择信息增益最大的特征作为当前节点的分裂属性;第二,根据该特征的每个可能取值,将数据集划分为若干子集,并为每个取值生成一个分支;第三,若某子集中的样本全部属于同一类别,则将该分支标记为叶节点并赋予该类标签,否则递归调用上述过程继续划分子集;第四,算法在以下三种情况终止递归:所有特征已用完、当前节点样本全属同一类别,或分支下无样本数据(此时将叶节点标记为父节点中最普遍的类别)。该算法通过自顶向下的贪心搜索构建决策树,但存在对多值特征的偏好且无法处理连续属性与缺失值。
(5)解释ID3、C4.5和CART算法

(6) 解释ID3、C4.5和CART算法的异同点,包括:

(7)详述决策树剪枝的必要性,并对比预剪枝和后剪枝:



**(8)解释决策树如何处理以下问题:**1.连续特征离散化;2.缺失值处理;3.多变量决策树


3.计算题
(1) "信息熵"是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为 ,则D的信息熵定义为:
Ent(D)的值越小,则D的纯度越高。
(2)信息增益
信息增益 = 划分前的不纯度 − 划分后的平均不纯度
信息增益越大,说明用属性 aa 划分后,数据的纯度提升越大,分类效果越好。
ID3算法 就是选择 信息增益最大 的属性作为当前节点的划分属性。
(3)增益率
(3)基尼值
(4)基尼指数
(1)信息增益
现有以下天气数据集,用于判断是否适合打网球(Play=Yes/No):




(2)增益率


IV(Outlook) ≈ 1.576

C4.5算法选择划分属性时,不是直接选择信息增益最大的属性,而是选择增益率最大的属性,以避免对多值属性的偏好。
(3)基尼指数


4.设计机器学习方案






4.可解释性方案



五.神经网络
1.选择题
(1)神经元模型的基本结构不包括:
A) 输入
B) 权重
C) 激活函数
D) 决策函数
(2)生物神经元中的"突触"在人工神经元中对应的是:
A) 输入信号
B) 连接权重
C) 阈值
D) 激活函数
(3)M-P神经元模型中,神经元的输出是:
A) 输入加权和的线性函数
B) 输入加权和经过激活函数的非线性变换
C) 输入加权和与阈值的比较结果
D) B和C都正确
(4)感知机(Perceptron)只能解决什么问题?
A) 线性可分问题
B) 线性不可分问题
C) 非线性可分问题
D) 所有分类问题
(5)多层前馈网络至少包含:
A) 输入层、输出层
B) 输入层、隐含层、输出层
C) 输入层、多个隐含层、输出层
D) 仅隐含层
(6)误差逆传播算法(BP算法)的核心是:
A) 前向传播计算输出
B) 反向传播调整权重
C) 链式求导法则
D) 梯度下降法
(7)神经网络训练中容易陷入局部极小是因为:
A) 学习率过大
B) 误差曲面复杂,存在多个极小点
C) 梯度消失问题
D) 训练数据不足
(8)以下哪种方法不能帮助跳出局部极小?
A) 使用不同的初始权重
B) 使用模拟退火
C) 使用更小的学习率
D) 使用随机梯度下降
(9)卷积神经网络(CNN)主要应用于:
A) 图像处理
B) 时间序列预测
C) 自然语言处理
D) 强化学习
(10)循环神经网络(RNN)的主要特点是:
A) 有反馈连接
B) 处理序列数据
C) 具有记忆能力
D) 所有以上都是
(11)深度学习与浅层神经网络的主要区别是:
A) 网络层数更多
B) 能够自动学习特征
C) 需要更多数据
D) 所有以上都是
(12)梯度消失问题通常发生在:
A) 激活函数导数值过小
B) 网络层数过深
C) 学习率过大
D) A和B都正确
(13)Sigmoid激活函数的缺点是:
A) 容易饱和,梯度消失
B) 输出不是零中心
C) 计算指数运算慢
D) 所有以上都是
(14)ReLU激活函数的优点是:
A) 计算简单
B) 缓解梯度消失
C) 促进稀疏性
D) 所有以上都是
(15)Dropout技术的主要作用是:
A) 防止过拟合
B) 加快训练速度
C) 提高模型精度
D) 减少计算量
答案:
1.D 2. B 3. D 4. A 5. B 6. B 7. B 8. C 9. A 10. D 11.D 12. D 13. D 14. D 15. A
2.简答题
基本概念:
红线为单位阶跃函数,黑线为对数几率函数
(1)详细解释M-P神经元模型的工作原理
该模型的工作原理如下:输入信号从其他神经元传递而来,每个输入信号乘以相应的连接权重后,进行加权求和,并加上一个偏置值;然后将这个加权和结果通过激活函数进行非线性变换,最终产生输出信号。激活函数通常为阶跃函数或Sigmoid函数。

从图示上看,M-P神经元模型包括输入端(接收多个输入信号)、权重连接(每个输入对应一个权重)、求和节点(进行加权求和与偏置处理)、激活函数单元(执行非线性映射),以及输出端(产生最终输出)。输入信号经过这一系列处理步骤,转化为神经元的激活状态并传递给下一层神经元。
(2)神经元,神经网络与隐藏层的构建

(3)激活函数是什么?作用是什么?
激活函数 是人工神经网络中,施加在神经元输出上的一个非线性数学函数。它是神经网络模型的核心组件之一。

激活函数需要在其定义域的绝大部分区间内可导,原因如下:
(1)梯度计算的必要性:反向传播算法需要计算损失函数对网络中每一个参数的梯度,而这个计算链式法则依赖于激活函数的导数。如果激活函数不可导,梯度就无法有效传播。
(2)优化过程的稳定性:光滑的激活函数能提供连续、稳定的梯度信号,使得基于梯度下降的优化算法(如SGD、Adam)能够平滑、稳定地更新参数,从而更可靠地收敛到一个较好的解。
(3)主流激活函数的设计 :例如Sigmoid、Tanh以及目前最常用的ReLU的改进版本(如Leaky ReLU, Swish),它们在大部分定义域内都是可导的(ReLU在零点不可导,但在实践中可定义次梯度)。
(4)神经网络构建的流程
构建一个用于监督学习的神经网络遵循一套系统化的工程流程,主要包含以下步骤:(1)问题定义与数据准备 :明确任务是分类、回归或其他类型,并完成数据的收集、清洗、划分(训练集/验证集/测试集)与标准化/归一化。(2)网络结构设计 :这是核心步骤,包括确定网络类型(如前馈网络、CNN、RNN)、定义层数、每层的神经元数量、层与层之间的连接方式 ,并为每层选择合适的激活函数 。(3)模型编译与配置 :指定用于指导参数优化的损失函数 (如交叉熵、均方误差),选择具体的优化算法 (如SGD、Adam),并设定评估指标(如准确率)。(4)模型训练 :将训练数据输入网络,通过前向传播 计算预测和损失,再通过反向传播算法 计算损失函数关于各层参数的梯度,最后由优化器根据梯度更新网络权重和偏置 。此过程在多个轮次 上迭代进行。(5)评估与调优 :在独立的验证集上监控性能,判断是否出现过拟合或欠拟合,并据此调整超参数(如学习率、网络结构、正则化强度)。(6)最终测试与部署:使用表现最佳的模型在测试集上进行最终评估,确认其泛化能力后部署。
一次迭代的完整步骤如下:

(5)神经网络构建的核心思想
神经网络构建的核心思想是通过多层非线性变换的组合,从原始输入数据中自动学习并逐层抽象出有效的特征表示,最终完成复杂的函数映射 。具体体现在三个方面:(1)分层特征学习 :模仿人脑的层次化处理机制,浅层网络学习底层的、局部的特征(如边缘、纹理),深层网络将这些低级特征组合成高级的、抽象的概念(如物体部件、整体类别)。(2)万能近似能力 :理论上,只要具有至少一个隐藏层和足够多神经元的神经网络,就可以以任意精度逼近任何复杂的连续函数,这为其强大的建模能力提供了数学基础。(3)端到端学习 :模型直接从原始数据输入学习到最终目标输出,自动完成传统机器学习中需要人工设计的特征工程环节,这是其区别于传统方法的革命性优势。
(6)比较感知机与多层感知机(MLP)的异同,说明为什么多层感知机能够解决非线性可分问题。

(7)BP神经网络权重更新公式推导
(8)解释神经网络训练中的局部极小问题
1.局部极小和全局最小定义:
全局最小:在整个定义域内误差函数值最小的点
局部极小:在某邻域内误差函数值最小的点,但不是全局最小
2.神经网络容易陷入局部极小的原因:
1.高维非凸性:神经网络误差曲面通常是非凸的,存在多个局部极小点
2.梯度下降局限性:梯度下降只能找到当前梯度方向的局部最优
3.参数对称性:网络参数的对称排列导致多个等价的最优解
4.初始化敏感:不同权重初始化可能导致收敛到不同局部极小
(9)如何应对过拟合和局部极小问题

(10)神经网络训练无法收敛或收敛缓慢的常见原因及相应解决策略

(11)对比卷积神经网络(CNN),循环神经网络(RNN)和深度信念网络(DBN)的特点和应用场景。
1.卷积神经网络(CNN)的核心特点是采用局部连接和权值共享来高效提取空间特征,并通过池化操作增强平移不变性,适合处理图像类网格数据,广泛应用于图像分类、目标检测、人脸识别、医学影像分析和自动驾驶视觉系统等任务。
2.循环神经网络(RNN)通过时间展开的结构处理序列数据,具有记忆历史信息的能力,并在时间步之间共享参数,常用于自然语言处理、语音识别、时间序列预测和视频分析等时序相关领域。
3.深度信念网络(DBN)作为一种生成模型,通过受限玻尔兹曼机逐层进行无监督预训练,再通过有监督微调优化模型,能够有效缓解梯度消失问题,主要应用于特征学习、推荐系统、降维与可视化以及协同过滤等场景。
(12)从以下角度对比深度学习和传统机器学习。

(13)分析神经网络训练中的梯度消失和梯度爆炸问题



(14)解释以下技术的作用和原理


(15)针对手写数字识别任务(如MNIST数据集),设计一个简单的三层全连接神经网络如下:

(16)设计一个基于神经网络的图像分类系统




3.计算题
(1)感知机


(2)误差逆传播算法




(3)多层神经网络



(4)BP算法的完整链式求导




4.设计机器学习方案
基于神经网络的房价预测系统设计:














