2024数据挖掘算法与应用期末简答题

2024数据挖掘算法与应用

1.什么是数据挖掘?数据挖掘的功能有哪些?

(1)广义:是指从大量的、不完整的、有噪声的、模糊的、随机的实际应用数据中提取出人们事先不知道、潜在有用的信息或知识的过程

(2)狭义:知识发现过程的一个基本步骤

(3)商业:一种新的商业信息处理技术

2.在数据挖掘之前为什么要对原始数据进行预处理?

预处理是对数据进行检测和修正,目的是对获取的脏数据进行一些处理,提高数据的质量,让数据适应和匹配模型,是的数据挖掘的结果更加准确、有价值

3.缺失值的处理有哪些方法?列出至少6种。

(1)忽略元组

(2)人工填写缺失值

(3)用属性的均值填充

(4)用全局常量填充

(5)用与给定元组属于同一类的所有样本的属性的平均值填充

(6)用最可能的值填充

4.什么是主成分分析?

又称PCA技术;

(1)是将数据投射到一个低维子空间以实现降维(2)是数据规约的常用方法

(3)通常用于高维数据集的探索与可视化

(4)还可用于数据压缩、数据预处理

(5)可把可能具有相关性的高维变量转化成线性无关的低维变量

5.什么是关联规则?

形如A--->B的逻辑蕴含表达式,其中A不等于空集,B不等于空集,且A包含于I,B包含于I,并且A和B无交集

6.解释关联规则评价标准提升度,并写出其计算公式。

提升度表示A项集对B项集概率的提升作用,用来判断规则是否有实际价值,在使用该规则后项集出现的频率有没有高于项集单独出现的频率

计算公式:Lift(A--->B)=P( B | A ) / P( B )

7.简述K-means算法的输入、输出及聚类过程。

输入:要分类簇的数目k,包含n个对象的数据库

输出:k个簇

聚类过程:

(1)给每个簇确定一个初始簇中心,有k个簇中心

(2)按照最小距离原则将样本分配到最近邻的簇

(3)使用每个簇的样本均值作为新的簇中心

(4)重复(2)(3),直到簇中心不再发生变化

(5)结束,输出k个簇

8.简述DBSCAN算法优缺点

优点:

(1)聚类速度快

(2)能够有效地处理噪声点,并发现任意形状的簇

缺点:

(1)数据量增大时,要较大的内存,I/O消耗大

(2)当数据密度不均匀时,各簇的簇内距离相差很大时,聚类效果差

9.什么是决策树?如何用决策树进行分类?

什么是决策树:

(1)一种分类方法,分类模型是以二叉树或多叉树的形式表现出来

(2)决策树由决策点、分支点和叶子节点组成,每个分支都是一个新的决策节点,决策点代表一个问题或决策,叶子节点代表可能的分类结果

如何用决策树进行分类:

(1)从上到下遍历决策树,每个节点都会遇到一个测试,对每个节点的上问题的不同输出做出不同决策,最后到达一个叶子节点,得到待分类对象的所属类别

(2)可通过决策树直观、准确地得到分类规则,并对未知数据作出客观、准确的分类判断

10.简述ID3算法原理。

(1)计算所有属性的信息增益,选择信息增益最大的属性作为分裂属性,产生决策树节点

(2)根据该属性的不同取值建立分支

(3)再对各分支递归调用上述方法来建立分支,直到子集中仅包括同一类别或没有可分裂的属性为止,由此得到一颗决策树

11.简述提升(boosting)算法原理。

(1)以弱分类器(通常为决策树)为基学习器,各基学习器之间由相互依赖的串联关系

(2)给训练数据分配权值来降低分类误差

(3)弱分类器分类错误的样本数据在下一次训练弱分类器时加大权值

相关推荐
Jasmine_llq3 分钟前
《P4587 [FJOI2016] 神秘数》
算法·倍增思想·稀疏表(st 表)·前缀和数组(解决静态区间和查询·st表核心实现高效预处理和查询·预处理优化(提前计算所需信息·快速io提升大规模数据读写效率
薛定谔的猫198211 分钟前
十七、用 GPT2 中文对联模型实现经典上联自动对下联:
人工智能·深度学习·gpt2·大模型 训练 调优
超级大只老咪17 分钟前
快速进制转换
笔记·算法
壮Sir不壮22 分钟前
2026年奇点:Clawdbot引爆个人AI代理
人工智能·ai·大模型·claude·clawdbot·moltbot·openclaw
PaperRed ai写作降重助手31 分钟前
高性价比 AI 论文写作软件推荐:2026 年预算友好型
人工智能·aigc·论文·写作·ai写作·智能降重
玉梅小洋35 分钟前
Claude Code 从入门到精通(七):Sub Agent 与 Skill 终极PK
人工智能·ai·大模型·ai编程·claude·ai工具
m0_7066532339 分钟前
C++编译期数组操作
开发语言·c++·算法
-嘟囔着拯救世界-1 小时前
【保姆级教程】Win11 下从零部署 Claude Code:本地环境配置 + VSCode 可视化界面全流程指南
人工智能·vscode·ai·编辑器·html5·ai编程·claude code
正见TrueView1 小时前
程一笑的价值选择:AI金玉其外,“收割”老人败絮其中
人工智能
故事和你911 小时前
sdut-Java面向对象-06 继承和多态、抽象类和接口(函数题:10-18题)
java·开发语言·算法·面向对象·基础语法·继承和多态·抽象类和接口