1.数据预处理的目的与形式
数据预处理的目的是提供干净,简洁,准确的数据,以达到简化模型和提高算法泛化能力的目的,使挖掘过程更有效,更容易,提高挖掘效率和准确性。
2.数据预处理的形式
数据清理,数据集成,数据变换,数据归约
3.分类过程一般包括三个环节
一、将数据集划分为两部分,一部分作为训练集,一部分作为测试集。
二、通过分析训练集的特点来构建分类模型(模型可以是决策树或分类规则等形式)。
三、对测试集用建立的分类模型进行分类,评估该分类模型的分类准确度等指标,通常使用分类性能好的分类模型对类标号未知的样本进行分类。
4.剪枝的原则
是去除对未知样本预测准确度低的子树,通常有前剪枝和后剪枝两种基本方法后,后剪枝所需要的计算比前剪枝多,但通常产生更可靠的树。
前剪枝的目标是控制决策树充分生长,通过事先指定一些控制参数来提前停止树的构建,如决策树最大深度,树中父结点和子结点所包含的最少样本量或比例,结点中测试输出结果的最小差异减少量。
后剪枝就是在决策树充分生长的基础上,根据一定的规则,剪去那些不具有代表性的叶子结点或子树,以创建更稳定的模型,是一个边剪枝边检验的过程。
5.决策树算法的特点
优点:
一、原理简单易懂。
二、效率高,每次预测的最大计算次数不超过决策树的深度。
三、对缺失值不敏感。
四、可以处理不相关特征数据。
缺点:
一、容易出现过度拟合。
二、当类别太多时,错误可能增加的比较快。
三、在处理特征关联性比较强的数据时,表现得不是太好。
6.K-最近邻分类算法的优缺点
优点:是原理简单,实现起来比较方便,KNN是一种非参数化方法,适合概率密度函数参数形式未知的场合,能对超多边形的复杂决策空间建模,最近邻分类器可以生成任意形状的决策边界。
缺点:①当k很小时,对噪声非常敏感,很难找到最优的k值,通常采用试探法,对不同的k值进行实验,以决定取哪个值较好。②对大规模数据集的分类效率低,由于kNN存放所有的训练样本,不需要事先建模,直到有新的样本需要分类时才进行分类。因此,当训练样本数量很大时,算法时间开销也非常大。
7.简述人工神经网络的分类及主要网络的定义
答:按照神经元的连接方式,神经网络分为不同网络连接模型,如:向前网络、反馈网络。
前向网络的神经元分层排列,即组成输入层、隐含层和输出层。每层的神经元只接受前一层神经元的输入。输入模式经过各层的顺次变换后由输出层输出。各神经元之间不存在反馈。
反馈网络在输出层到输入层存在反馈,即每个输入节点都有可能接受来自外部的输入和来自输出神经元的反馈。
按学习方法分类,神经网络分为有监督的学习网络和无监督的学习网络。无监督的学习网络基本思想是当输入的实例模式进入神经网络后,网络按预先设定的规则自动调整权值。 有监督的学习网络基本思想是对实例k的输入,由神经网络根据当前的权值分布计算网络的输出,把网络的计算输出与实例k的期望输出进行比较,根据两者之问的差的某函数的值的输出来调整网络的权值分布,最终使差的函数值达到最少。
8.简述神经网络的优缺点。
优点:
(1)对噪声数据有较好适应能力,并且对未知数据也具有较好的预测分类能力。
(2)能逼近任意非线性函数。
(3)对信息的并行分布式综合优化处理能力。
(4)高强的容错能力。
(5)对学习结果有很好的泛化能力和自适应能力。
(6)便于集成实现和模拟。
(7)可以多输入、多输出。
缺点:
(1)当处理问题的规模很大时,计算开销变大,因此它仅适用于时间容许的应用场合。
(2)神经网络可以硬件实现,但不如软件灵活。
(3)神经网络对于输入数据预处理有一定讲究。
(4)神经网络对处理结果不能解释,相当于一个黑盒。
(5)实际应用中,神经网络在学习时, 需要设置一些关键参数,如网络结构等,神经网络的设计缺乏充分的理论指导,这些参数通常需要经验方能有效确定。
9.简述分类模型性能评价指标
答:比较不同的分类器时,需参照的关键性能指标如下:
(1)分类准确率:指模型正确地预测新的或先前未见过的数据的类标号的能力。通常分类算法寻找的是分类准确率高的分类模型,一般可以满足分类器模型的比较。影响分类准确率的因素有训练数据集 记录的数目、属性的数目、属性中的信息、测试数据集记录的分布情况等。
(2)计算复杂度:决定算法执行的速度和占用的资源,依赖于具体的实现细节和软/硬件环境。由于数据挖掘中的操作对象是海量的数据库因而空间和时间复杂度将是非常重要的问题。
(3)可解释性:分类结果只有可解释性好,容易理解,才能更好地用于决策支持。结果的可解释性越好,算法受欢迎的程度越高。
(4)强壮性或鲁棒性:指在数据集中含有噪声和缺失值的情况下,仍具有较好的正确分类数据的能力。
(5)累积增益图:在给定的类别中显示,通过把个案总数的百分比作为目标"增益"的个案总数的百分比。累积增益图通过选择对应于大量收益的百分比选择分类标准值,然后将百分比与适当分界值映射。
10.简述k-means聚类算法的形式化描述
算法:k-means
输入:数据集D,划分簇的个数k
输出:k个簇的集合
(1)从数据集D中任意选择k个对象作为初始簇中心
(2) repeat
(3) for数据集D中每个对象Pdo
(4) 计算对象P到k个簇中心的距离
(5) 将对象P指派到与其最近(距离最短)的簇
(6)end for
(7) 计算每个簇中对象的均值,做为新的簇的中心
(8)until k个簇的簇中心不再发生变化
11.简述层次聚类算法的定义及主要种类的介绍
答:层次聚类法是一种已得到广泛使用的经典方法,是通过将数据组织为若干组并形成一个相应的树来进行聚类。层次聚类方法可分为自上向下和自下而上两种。
1、自上向下层次聚类方法的策略与自下而上的层次聚类方法相反,首先将所有对象置于同一个簇,然后将其不断分解,而得到规模越来越小但个数越来越多的小簇,直到所有对象均独自构成一个,或满足一定终止条件为止。
2、自下而上层次聚类方法就是最初将每个对象(自身)作为一个簇,然后将这些簇进行聚合, 以构造越来越大的簇,直到所有对象均聚合为一个簇,或满足一定终止条件为止。绝大多数层次聚类方法属于这一类,只是簇间相似度的定义有所不同。
12.CURE算法的思想主要体现为
①算法采用的是凝聚层次聚类,每个对象就是一个独立的簇,然后从最相似的对象开始进行合并。
②为了处理大数据集,采用随机抽样和分割手段,抽样可以降低数据量,提高算法的效率。在样本大小选择合适的情况下,一般能够得到比较好的聚类结果。分割是指将样本集分割为几部分,然后针对各部分中的对象分别进行局部聚类,形成子簇,再针对子簇进行聚类,形成新的簇。
③传统的算法常常采用一个对象来代表一个簇,而 cure算法由分散的若干对象在按收缩因子移向其所在簇的中心后代表该簇,因此能够处理非球形分布的对象
④分两个阶段消除异常值的影响,第一个阶段在最开始每个对象是一个独立的簇,然后从最相似的对象开始进行合并,由于异常直通其他对象的差距更大,因此其所在的簇中对象数目的增大就会非常缓慢,甚至不增长。第二个阶段的工作是将聚类过程中增长非常缓慢的簇作为异常值去除。
⑤由于cure算法采用多个对象来代表一个簇,因此可以采用更合理的非样本对象分配策略,在完成对样本的聚类后,各簇中只包含有样本对象,还需要将非样本对象按一定策略分配到相应的簇中。
13.简述ROCK 算法的聚类过程形式化描述
算法:ROCK
输入:数据集D
输出:簇集合
(1)随机选择一个样本
(2)在样本上用凝聚算法进行聚类,簇的合并是基于簇间的相似度,即基于来自不同而有相同邻居的样本的数目
(3)将其余每个数据根据它与每个簇之间的连接,判断它应归属的簇