数据挖掘可以挖掘什么类型的模式？

dundunmm2024-08-03 7:06

一、挖掘频繁模式、关联和相关性

频繁模式（frequent pettern）是在数据中频繁出现的模式。

频繁项集一般是指频繁的在事务数据集中一起出现的商品的集合。

频繁出现的子序列，如顾客倾向于先买相机，再买内存卡这样的模式就是一个（频繁）序列模式。

子结构可能涉及不同的机构模式，如图、数或格。如果一个子结构频繁出现，则可称为（频繁）结构模式。

挖掘频繁模式可以发现数据中有趣的关联和相关性。

关联规则可分为单维关联规则和多维关联规则。

分类是找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号。

分类和回归是有监督的学习方法。数据集分为训练集和测试集。

分类是预测类别的标号。

回归是建立连续值函数模型，即用来预测难以获得的数据值或缺失的数据。

两种方法可以成为数值预测和类标号预测。

聚类分析是一种无监督的学习方法。

聚类的特点是最大化类簇间的距离、最小化类簇内样本的距离。

大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。

但在欺诈检测等应用中，离群点的出现则很重要。

参考文献：数据挖掘：概念与技术（原书第三版）