数据挖掘可以挖掘什么类型的模式?

一、挖掘频繁模式、关联和相关性

频繁模式(frequent pettern)是在数据中频繁出现的模式。

频繁项集一般是指频繁的在事务数据集中一起出现的商品的集合。

频繁出现的子序列,如顾客倾向于先买相机,再买内存卡这样的模式就是一个(频繁)序列模式。

子结构可能涉及不同的机构模式,如图、数或格。如果一个子结构频繁出现,则可称为(频繁)结构模式。

挖掘频繁模式可以发现数据中有趣的关联和相关性。

关联规则可分为单维关联规则和多维关联规则。

二、用于预测分析的分类与回归

分类是找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。

分类和回归是有监督的学习方法。数据集分为训练集和测试集。

分类是预测类别的标号。

回归是建立连续值函数模型,即用来预测难以获得的数据值或缺失的数据。

两种方法可以成为数值预测和类标号预测。

三、聚类分析

聚类分析是一种无监督的学习方法。

聚类的特点是最大化类簇间的距离、最小化类簇内样本的距离。

四、离群点分析

大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。

但在欺诈检测等应用中,离群点的出现则很重要。


参考文献:数据挖掘:概念与技术(原书第三版)

相关推荐
deephub1 分钟前
用 PyTorch 实现 LLM-JEPA:不预测 token,预测嵌入
人工智能·pytorch·python·深度学习·大语言模型
量子-Alex6 分钟前
【多模态大模型】Qwen2-VL项目代码初步解析
人工智能
飞鹰5114 分钟前
深度学习算子CUDA优化实战:从GEMM到Transformer—Week4学习总结
c++·人工智能·深度学习·学习·transformer
工程师老罗16 分钟前
Pytorch如何验证模型?
人工智能·pytorch·深度学习
Hi_kenyon17 分钟前
Skills精选
人工智能
沈浩(种子思维作者)25 分钟前
铁的居里点(770度就不被磁铁吸了)道理是什么?能不能精确计算出来?
人工智能·python·flask·量子计算
沛沛老爹27 分钟前
Web开发者转型AI:多模态Agent视频分析技能开发实战
前端·人工智能·音视频
张小凡vip28 分钟前
数据挖掘(九) --Anaconda 全面了解与安装指南
人工智能·数据挖掘
zhangfeng113330 分钟前
Ollama 支持模型微调但是不支持词库,支持RAG,go语言开发的大模型的推理应用,
人工智能·深度学习·golang
格林威30 分钟前
Baumer相机铆钉安装状态检测:判断铆接是否到位的 5 个核心算法,附 OpenCV+Halcon 的实战代码!
人工智能·opencv·算法·计算机视觉·视觉检测·工业相机·堡盟相机