23大数据 数据挖掘复习1
一、选择题(每题2分,共30分)
1. 下列关于决策树节点的说法,正确的是( )
A. 根节点是树的末端节点,代表分类结果
B. 内部节点表示特征或属性,用于进一步分割数据
C. 叶节点是树的最顶层节点,代表初始数据分割
D. 边表示分类结果,路径表示特征取值
答案 :B
解析:决策树中,根节点是最顶层节点(A、C错误),代表初始数据分割;内部节点表示特征或属性,用于进一步分割数据(B正确);叶节点是末端节点,代表分类结果;边表示特征的可能取值,路径表示一系列决策(D错误)。
2. ID3算法选择最优特征的核心指标是( )
A. 基尼指数 B. 信息增益 C. 信息增益比 D. 方差
答案 :B
解析:ID3算法以"信息增益"作为特征选择标准,通过计算特征对数据不确定性的减少程度选择最优特征;信息增益比是C4.5算法的指标,基尼指数和方差与ID3算法无关,故B正确。
3. 下列不属于C4.5算法对ID3算法改进的是( )
A. 支持处理连续特征
B. 支持剪枝以减少过拟合
C. 仅能处理离散特征
D. 用信息增益比校正信息增益的偏向性
答案 :C
解析:C4.5是ID3的改进版,改进点包括支持连续特征、支持剪枝、用信息增益比校正偏向性(A、B、D均属于);"仅能处理离散特征"是ID3算法的局限性,并非C4.5的改进,故C错误。
4. 随机森林的"随机性"不包括( )
A. 随机选择训练样本(自助采样)
B. 随机选择分裂节点的特征
C. 随机调整决策树的类别数量
D. 每棵树独立训练,结果通过投票聚合
答案 :C
解析:随机森林的"随机性"体现在样本随机(自助采样)和特征随机(分裂时选部分特征),且每棵树独立训练、投票聚合结果(A、B、D均属于);"随机调整类别数量"无此逻辑,类别数量由数据本身决定,故C错误。
5. 数据分析流程的第一步是( )
A. 数据收集 B. 明确分析目标 C. 数据处理 D. 建模分析
答案 :B
解析:数据分析需遵循"明确分析目标→数据收集→数据处理→建模分析→结果可视化→结论建议"的流程,第一步是明确目标,避免后续工作偏离方向,故B正确。
6. 下列属于数据预处理核心工作的是( )
A. 直接建模分析 B. 处理缺失值和重复数据
C. 仅关注数据总数,忽视比例 D. 不区分错误数据和稀有事件
答案 :B
解析:数据预处理需处理缺失值、重复数据、异常数据等问题(B正确);A选项跳过预处理,易导致模型偏差;C选项是数据分析陷阱;D选项错误,异常数据需区分错误数据(剔除)和稀有事件(重点分析),故B正确。
7. 业务理解的关键工作不包括( )
A. 了解行业知识和业务流程
B. 与领域专家交流,亲临一线调研
C. 仅依赖数据,不关注业务逻辑
D. 明确分析需求和目标
答案 :C
解析:业务理解需结合业务逻辑(如行业知识、流程)和调研(A、B、D均属于);仅依赖数据、脱离业务逻辑会导致数据解读偏差(如误删正常业务数据),故C错误。
8. 决策树容易出现的问题是( )
A. 可解释性差 B. 对噪声数据敏感,易过拟合
C. 需复杂的数据预处理(如特征缩放) D. 无法处理非线性关系
答案 :B
解析:决策树的优点是可解释性强、预处理要求低、能处理非线性关系(A、C、D错误);缺点是对噪声敏感,树深度过大时易过拟合,需通过剪枝优化,故B正确。
9. 随机森林相对于单棵决策树的优势是( )
A. 模型更简单,训练速度更快
B. 泛化能力更强,抗过拟合
C. 仅能处理分类任务,不能处理回归任务
D. 不需要训练多棵树,仅需单棵树即可
答案 :B
解析:随机森林通过集成多棵差异树,用投票/平均聚合结果,泛化能力比单棵树强,能减少过拟合(B正确);A选项错误,随机森林模型更复杂;C选项错误,随机森林可处理分类和回归;D选项错误,随机森林需训练多棵树,故B正确。
10. 数据不完整时,处理缺失值的合理方法是( )
A. 直接复制其他样本覆盖缺失值 B. 用均值或众数填充
C. 删除所有含缺失值的数据,无论缺失比例 D. 忽视缺失值,直接建模
答案 :B
解析:处理缺失值的合理方法包括均值/众数填充、模型预测填充等(B正确);A选项导致数据失真;C选项仅适用于缺失比例低的场景;D选项忽视缺失值会影响模型效果,故B正确。
11. 下列关于信息增益的说法,正确的是( )
A. 信息增益越小,特征区分数据的能力越强
B. 信息增益仅与条件熵有关,与熵无关
C. 信息增益表示已知特征后,数据不确定性减少的程度
D. 信息增益不会受特征取值数量的影响
答案 :C
解析:信息增益是"熵与条件熵的差",表示已知特征后数据不确定性的减少程度(C正确);A选项错误,增益越大,区分能力越强;B选项错误,与熵和条件熵均有关;D选项错误,信息增益易偏向取值多的特征,需用信息增益比校正,故C正确。
12. 决策树剪枝的目的是( )
A. 增加树的深度,提升训练准确率
B. 减少过拟合,提升模型泛化能力
C. 增加叶节点数量,使模型更复杂
D. 仅适用于随机森林,不适用于单棵决策树
答案 :B
解析:决策树剪枝通过移除冗余分支,解决过拟合问题(如限制树深度、删除无用节点),从而提升对新数据的泛化能力(B正确);A、C选项会增加过拟合风险;D选项错误,剪枝适用于单棵决策树,故B正确。
13. 下列属于数据分析常见陷阱的是( )
A. 结合业务逻辑解读数据 B. 将相关关系误认为因果关系
C. 合理选择比较对象进行对比 D. 数据预处理时处理重复数据
答案 :B
解析:数据分析陷阱包括混淆相关与因果、错误比较对象、忽视比例等(B正确);A、C、D选项是正确的数据分析操作,不属于陷阱,故B正确。
14. 随机森林训练时,每棵树的训练数据来源于( )
A. 原始数据的无放回抽样 B. 原始数据的有放回抽样(自助采样)
C. 人工生成的虚拟数据 D. 仅使用原始数据的前10%样本
答案 :B
解析:随机森林通过"自助采样"(有放回抽样)从原始数据中生成多个子训练集,每个子训练集与原始数据量一致,且允许重复样本,保证每棵树的独立性,故B正确。
15. 解决"维度灾难"(自变量过多导致数据稀疏)的常用方法是( )
A. 增加样本数量 B. 删除所有连续特征
C. 降维技术(如主成分分析) D. 仅保留取值多的特征
答案 :C
解析:维度灾难是自变量过多导致的问题,需通过降维技术(如主成分分析、奇异值分解)减少自变量数量,保留核心信息(C正确);A选项增加样本不能解决维度问题;B、D选项会丢失有用信息,故C正确。
二、判断题(每题1分,共20分)
1. 决策树的叶节点表示特征或属性,用于进一步分割数据。( )
答案 :×
解析:叶节点是树的末端节点,代表分类结果;内部节点表示特征或属性,用于进一步分割数据,题干混淆了叶节点和内部节点的功能,故错误。
2. ID3算法不能直接处理连续特征,需先对连续特征离散化。( )
答案 :√
解析:ID3算法的局限性之一是"仅能处理离散特征",若遇到连续特征(如年龄、身高),需先通过"找切分点"离散化(如将年龄分为"<18""18-30"),才能处理,故正确。
3. 随机森林的"特征随机"是指每棵树的每个分裂节点,仅从所有特征中随机选部分特征找最优分裂点。( )
答案 :√
解析:随机森林的"随机性"包括特征随机:分裂节点时不使用所有特征,而是随机选部分特征(如选总特征数的平方根),再找最优分裂点,增加树的多样性,故正确。
4. 数据预处理时,重复数据不会影响模型结果,无需处理。( )
答案 :×
解析:重复数据会增加冗余计算,还可能导致模型对重复样本过度拟合,需通过SQL或Excel的去重功能删除,故错误。
5. C4.5算法用信息增益比选择特征,能校正信息增益对"多取值特征"的偏向性。( )
答案 :√
解析:信息增益易偏向取值多的特征(如身份证号这类唯一取值特征),C4.5用"信息增益比=信息增益÷特征自身熵"校正,取值多的特征自身熵大,会降低增益比,避免偏向性,故正确。
6. 业务理解的核心是明确分析目标,无需了解行业知识。( )
答案 :×
解析:业务理解需结合"明确目标+行业知识+一线调研",若脱离行业知识,易误将正常业务数据当作噪声剔除,导致分析偏差,故错误。
7. 决策树对训练数据的微小变化敏感,可能导致树结构大幅改变。( )
答案 :√
解析:决策树稳定性差,对噪声或微小数据变化敏感(如新增一个异常样本),可能改变分裂特征选择,生成完全不同的树结构,需通过剪枝或集成学习优化,故正确。
8. 随机森林对分类任务的最终结果采用"多数投票"机制,对回归任务采用"结果平均"机制。( )
答案 :√
解析:随机森林集成多棵树的结果:分类时选多数树预测的类别(投票),回归时计算所有树结果的平均值(平均),提升预测准确性和稳定性,故正确。
9. 数据量过少时,可通过复制稀有事件样本提升数据量,保证分析效果。( )
答案 :√
解析:数据量过少会导致规律不明显,可通过复制关键样本(如稀有事件,如信用卡欺诈案例)或补充外部数据,保证数据量足够支撑分析,故正确。
10. 决策树剪枝中的"预剪枝"是指先构建完整树,再移除无用分支。( )
答案 :×
解析:预剪枝是"在树构建过程中停止生长"(如限制最大深度、最小样本数);后剪枝才是"先建完整树,再移除无用分支",题干混淆了预剪枝和后剪枝,故错误。
11. 信息增益越大,说明该特征对减少数据不确定性的贡献越大。( )
答案 :√
解析:信息增益表示"已知特征后,数据不确定性减少的程度",增益越大,特征区分数据的能力越强,越适合作为分裂特征,故正确。
12. 随机森林的泛化能力比单棵决策树弱,更容易过拟合。( )
答案 :×
解析:随机森林通过集成多棵差异树,抵消单棵树的过拟合偏差,泛化能力比单棵决策树强,抗过拟合效果更好,故错误。
13. 数据不完整时,删除含缺失值的数据是适用于所有场景的最优方法。( )
答案 :×
解析:删除法仅适用于"缺失值样本占比低"的场景,若缺失比例高,删除会导致数据量不足,此时应选择均值填充或模型预测填充,故"所有场景""最优"的表述错误。
14. C4.5算法支持剪枝,能减少决策树的过拟合风险。( )
答案 :√
解析:C4.5是ID3的改进版,核心改进之一是引入剪枝技术(如后剪枝),通过移除冗余分支,减少过拟合,提升模型泛化能力,故正确。
15. 数据分析流程是线性的,无需循环迭代,一次即可完成。( )
答案 :×
解析:数据分析是闭环流程,需根据建模结果反向调整目标、数据或模型(如建模效果差时,返回数据处理阶段补充数据),存在循环迭代,故错误。
16. 随机森林中,每棵树的训练过程是并行的,互不干扰。( )
答案 :√
解析:随机森林的每棵树基于独立的自助采样数据集训练,树与树之间无依赖关系,可并行计算(如调用多个CPU核心),提升训练效率,故正确。
17. 数据预处理时,异常数据均需直接剔除,无需区分类型。( )
答案 :×
解析:异常数据分两类:错误数据(如录入错误的数值,需剔除/修正)和稀有事件(如罕见的客户购买行为,需重点分析特征),不能一概而论直接剔除,故错误。
18. ID3算法构建的决策树可能是多叉树,也可能是二叉树。( )
答案 :√
解析:ID3算法根据特征的取值数量分裂,若特征有2个取值(如"性别=男/女"),则构建二叉树;若特征有多个取值(如"纹理=清晰/稍糊/模糊"),则构建多叉树,故正确。
19. 业务理解能帮助甄别异常数据,选择合适的数据分析方法。( )
答案 :√
解析:深入理解业务(如行业规则、流程),能区分"正常业务波动"和"异常数据",还能根据业务目标选择适配的方法(如分类或回归),故正确。
20. 随机森林不需要关注特征重要性,仅需训练多棵树即可。( )
答案 :×
解析:随机森林的重要功能之一是评估特征重要性,通过综合多棵树中特征的分裂贡献(如信息增益增加量),判断哪些特征对预测结果影响大,辅助特征选择,故错误。
三、填空题(每题1分,共20分)
1. 决策树的节点包括根节点、________和叶节点,其中________是树的末端,代表分类结果。
答案 :内部节点;叶节点
解析:决策树节点分为三类:根节点(顶层,初始分割)、内部节点(中间层,分割数据)、叶节点(末端,输出分类结果),需明确叶节点的功能。
2. ID3算法选择特征的指标是________,C4.5算法选择特征的指标是________。
答案 :信息增益;信息增益比
解析:ID3用信息增益衡量特征区分能力,C4.5为校正信息增益的偏向性,改用信息增益比,两者是两类算法的核心差异。
3. 随机森林的"双随机"机制是指________和________。
答案 :样本随机(或自助采样、有放回抽样);特征随机(或分裂节点随机选部分特征)
解析:随机森林的"随机性"体现在样本和特征两方面,样本随机通过自助采样实现,特征随机通过分裂时选部分特征实现,保证树的多样性。
4. 数据分析的基础流程是:明确分析目标→________→数据处理→建模分析→结果可视化→结论整理及建议。
答案 :数据收集
解析:数据分析需按"目标→收集→处理→建模→可视化→结论"的顺序进行,数据收集是明确目标后的关键步骤,为后续处理提供原始数据。
5. 数据预处理中,处理缺失值的常用方法包括均值填充、________和删除含缺失值的数据。
答案 :众数填充(或模型预测填充、中位数填充)
解析:缺失值处理方法分三类:统计量填充(均值、众数、中位数)、模型预测填充、删除法,任选一种合理的统计量填充或模型填充方法即可。
6. 决策树容易出现________问题,可通过________技术减少该问题。
答案 :过拟合;剪枝(或预剪枝、后剪枝)
解析:决策树深度过大时易过拟合(记住训练数据噪声),剪枝(预剪枝限制生长、后剪枝移除分支)是解决过拟合的核心技术。
7. 业务理解需结合________和领域知识,与领域专家交流,亲临一线了解业务实际情况。
答案 :业务流程(或行业知识)
解析:业务理解的核心是"明确目标+业务背景",业务背景包括业务流程、行业知识、领域规则等,需通过调研和交流掌握。
8. 随机森林对分类任务的最终预测结果采用________机制,通过多棵树的结果聚合提升准确性。
答案 :多数投票(或投票)
解析:随机森林分类时,每棵树输出一个类别,最终选择"得票最多的类别"作为结果,即多数投票机制。
9. 数据质量问题包括数据量过少/过多、维度灾难、数据不完整、异常数据、________和数据不一致。
答案 :重复数据
解析:数据预处理需解决的核心质量问题包括数据量、维度、完整性、异常、重复、一致性六大类,重复数据会导致模型偏差,需重点处理。
10. C4.5算法相对于ID3算法的优势之一是能处理________特征,无需提前离散化。
答案 :连续
解析:ID3仅能处理离散特征,C4.5通过"找最优切分点"将连续特征分为两部分,支持直接处理连续特征,是重要改进。
11. 决策树的优点是________强,树结构类似人类决策过程,易于理解和解释。
答案 :可解释性(或直观性、易懂性)
解析:决策树的核心优势是可解释性,能清晰展示"特征→结果"的决策路径(如"纹理=清晰→根蒂=蜷缩→好瓜"),便于业务人员理解。
12. 随机森林中,自助采样是________抽样,允许子训练集中的样本重复出现。
答案 :有放回
解析:自助采样的规则是"有放回抽样",即每次抽样后样本放回原始数据,保证子训练集与原始数据量一致,且存在重复样本。
13. 数据分析常见陷阱中,"将事物的相关关系误认为因果关系"属于________的错误。
答案 :错误理解相关关系
解析:数据分析陷阱中,错误理解相关关系的典型表现是混淆"相关"与"因果"(如"冰淇淋销量高"与"溺水事故多"相关,但无因果),需结合业务逻辑排查。
14. 决策树剪枝分为________和后剪枝,其中________在树构建过程中停止生长。
答案 :预剪枝;预剪枝
解析:剪枝分两类:预剪枝(构建中停止,如限制最大深度)、后剪枝(构建后移除分支),需明确预剪枝的"边建边停"特点。
15. 解决"维度灾难"的常用降维技术包括________和奇异值分解(SVD)。
答案 :主成分分析(或PCA)
解析:维度灾难是自变量过多导致的数据稀疏问题,主成分分析(PCA)通过提取核心成分减少维度,是最常用的降维技术之一。
16. 随机森林的稳定性比单棵决策树________,因为它通过集成多棵树抵消了单棵树的噪声敏感问题。
答案 :强(或高、好)
解析:单棵决策树对噪声敏感,稳定性差;随机森林通过多棵树集成,噪声对单棵树的影响被稀释,整体稳定性更强。
17. 数据预处理中,对于重复数据,可使用________或Excel的去重功能将其滤除。
答案 :SQL(或结构化查询语言)
解析:重复数据处理工具包括SQL(如DISTINCT语句)和Excel(删除重复项功能),两者均为常用的去重方式。
18. 业务理解的目的是明确分析需求,选择合适的________和数据挖掘方法。
答案 :数据探索(或数据分析)
解析:业务理解的核心价值是为后续工作指明方向,包括选择数据探索的重点和适配的数据挖掘方法(如分类或聚类)。
19. 决策树构建的停止条件包括达到最大树深度、叶节点样本数小于________、所有样本属于同一类。
答案 :最小样本数(或预定阈值)
解析:决策树递归构建的停止条件:①最大深度;②叶节点样本数<最小样本数(样本不足,无法分裂);③样本全属同一类,需明确"最小样本数"的条件。
20. 随机森林中,每棵树的训练数据与原始数据集的________相同,保证每棵树有足够的样本支撑。
答案 :样本数量(或大小)
解析:自助采样生成的子训练集,样本数量与原始数据集一致,避免因样本量不足导致单棵树训练效果差,为集成效果提供保障。
四、场景题(每题6分,共30分)
1. 某超市收集了100条"顾客购买商品"的数据,包含"天气(晴/阴/雨)""周末(是/否)""购买(是/否)"三个字段,计划用决策树预测顾客是否购买。
(1)该场景下,决策树的根节点可能选择哪个特征?为什么?(3分)
(2)若用ID3算法构建决策树,选择特征的依据是什么?(3分)
答案 :
(1)根节点可能选择"天气"或"周末"(1分)。原因:根节点需选择"最能区分数据的特征",若"天气"或"周末"对"购买"结果的影响更大(如雨天购买率低、周末购买率高),则更可能成为根节点(2分)。
(2)ID3算法选择特征的依据是"信息增益"(1分)。通过计算"天气"和"周末"两个特征的信息增益,信息增益更大的特征(即该特征能更显著减少"购买"结果的不确定性)会被选为分裂特征(2分)。
解析:(1)根节点选择取决于特征对目标变量的区分能力,需结合业务常识判断特征与购买行为的关联性;(2)ID3的核心指标是信息增益,需明确信息增益的作用是衡量特征减少不确定性的能力。
2. 某中职学校要分析"学生数学成绩是否及格",收集了50条学生数据,其中10条数据的"作业完成次数"字段为空。
(1)该数据存在什么质量问题?(2分)
(2)请写出两种处理该问题的方法,并说明适用场景。(4分)
答案 :
(1)存在"数据不完整(缺失值)"问题(2分),"作业完成次数"字段为空属于缺失值,会影响后续建模分析。
(2)方法1:用"作业完成次数"的均值或众数填充(1分),适用场景:缺失值样本占比低(如本题10/50=20%,占比不高),且缺失值无明显业务规律(2分);方法2:删除含缺失值的10条数据(1分),适用场景:缺失值样本占比低,删除后剩余数据仍能支撑分析(2分)。(两种方法任选,合理即可)
解析:(1)明确"字段为空"属于缺失值,是数据不完整的典型表现;(2)处理缺失值需结合缺失比例选择方法,均值填充和删除法是最基础的两种,需说明适用场景的核心是"缺失比例低"。
3. 某电商公司用决策树分析"客户是否流失",发现模型在训练数据上准确率达95%,但在新客户数据上准确率仅60%。
(1)该模型存在什么问题?(2分)
(2)如何解决该问题?请写出两种方法。(4分)
答案 :
(1)模型存在"过拟合"问题(2分),过拟合表现为训练数据准确率高、新数据准确率低,模型记住了训练数据的噪声,泛化能力差。
(2)方法1:对决策树进行剪枝(1分),如预剪枝限制树的最大深度,或后剪枝移除对预测贡献小的分支,减少过拟合(2分);方法2:改用随机森林算法(1分),通过集成多棵差异决策树,用投票聚合结果,提升泛化能力,减少过拟合(2分)。(两种方法任选,合理即可)
解析:(1)根据"训练准、新数据差"的特征,判断为过拟合;(2)解决过拟合的核心方法是剪枝(针对单棵决策树)和集成学习(如随机森林),需明确两种方法的具体操作。
4. 某水果店要通过随机森林预测"水果是否新鲜",收集了"存储天数""温度""湿度""包装类型"4个特征的数据。
(1)随机森林训练时,"样本随机"如何实现?(3分)
(2)"特征随机"如何实现?以本题为例说明。(3分)
答案 :
(1)"样本随机"通过"自助采样(有放回抽样)"实现(1分):从原始水果数据中,有放回地抽取与原始数据量相同的样本,生成多个子训练集(如生成100个子训练集),每个子训练集用于训练一棵决策树(2分)。
(2)"特征随机"通过"分裂节点随机选部分特征"实现(1分):以本题4个特征为例,每棵决策树的每个分裂节点,仅从4个特征中随机选择2个(如选"存储天数"和"温度"),再从这2个特征中找最优分裂点,不使用所有4个特征(2分)。
解析:(1)明确自助采样的"有放回、样本量一致"核心规则;(2)特征随机需结合具体特征数量举例,说明"随机选部分特征"的操作,体现随机性。
5. 某数据分析人员分析"某产品销量与广告费用的关系"时,发现两者呈正相关(广告费用高时销量高),直接得出"增加广告费用能提升销量"的结论。
(1)该分析存在什么陷阱?(2分)
(2)如何避免该陷阱?请写出具体做法。(4分)
答案 :
(1)存在"错误理解相关关系(将相关误认为因果)"的陷阱(2分),销量与广告费用正相关,不代表两者有因果关系,可能存在第三方变量(如"节假日促销"同时导致广告费用增加和销量提升)。
(2)避免做法:①结合业务逻辑分析,排查是否存在第三方变量(如查看销量高时是否有促销活动、新品上市等,1分),若存在第三方变量,需纳入分析范围(1分);②通过对比实验验证,如选择两个相似区域,一个增加广告费用,一个保持不变,观察销量差异(1分),若增加广告费用的区域销量显著更高,再确认因果关系(1分)。
解析:(1)根据"相关推因果"的行为,判断为错误理解相关关系的陷阱;(2)避免陷阱需从"业务排查第三方变量"和"实验验证"两方面入手,确保结论符合实际业务逻辑,而非仅依赖数据相关性。