数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


频繁项集、闭项集和关联规则

频繁项集:出现的次数超过最小支持度计数阈值

闭频繁项集:一个集合他的超集(包含这个集合的集合)在数据库里面的数量和这个集合在这个数据库里面的数量不一样,这个集合就是闭项集

如果这个集合还是频繁的,那么他就是极大频繁项集

项集{a,b}出现在TID为1,2的事务中,其支持度计数为2。而它的直接超集{a,b,c}支持度计数也为2,所以{a,b}不是闭项集。

Apriori算法

手撕例题

STEP1.候选1项集→频繁1象集

拿到候选数据后,我们先筛选出候选频繁1象集,并算出它们的支持度【支持度=有购买该物品的人/总人数】 ,完成这一操作后,将它和题目中给出的最小支持度作比较,从而得到频繁1象集!

STEP2-3.重复上述步骤, 进行候选2项集→频繁2象集;候选3项集→频繁3象集的过程直到不能够再往下为止(例如,本题到频繁3象集,{面、奶、酒}为止)。

STEP4.写出最终频繁N象集的非空真子集,如题中**{面、奶、酒}的非空真子集** 如下所示,并分别计算它们的置信度!(注意!这里不再是计算支持度了哈!别和上面搞混了!)

举个例子,我们要求{面}→{奶、酒}的置信度,翻译一下即,我们想知道买了面的人,有多大可能性也买了奶、酒,即同时买面、奶、酒的人数/买面的人数=2/3!

后续同理,我们可以得到所有关系的置信度,最后我们再拿题干中的最小置信度和算出来的置信度进行比较 !就能得出最终的强关联规则(同时满足最小支持度、置信度)

fp树

先建立频繁1项集

递减排序

通过一行行事务进行建立树(如果有相同路径数字加1,没有创建新的子树)

挖掘出频繁项集

关联规则

同时满足支持度以及置信度

强规则不一定是有趣的

强规则有一定欺骗性(置信度存在问题)可能某商品是必须品

从关联分析到相关分析

提升度

lift(A,B)=P(AnB)/P(A)*P(B)

>1正相关,一个出现另一个就出现

<1负相关,一个出现另一个就不出现

=1独立

相关推荐
MicroTech20258 分钟前
MLGO微算法科技通过 Lindbladians 设计线性微分方程的近似最优量子算法——开放量子系统框架下的量子ODE求解新范式
科技·算法·量子计算
知乎的哥廷根数学学派14 分钟前
基于多尺度特征提取和注意力自适应动态路由胶囊网络的工业轴承故障诊断算法(Pytorch)
开发语言·网络·人工智能·pytorch·python·算法·机器学习
源代码•宸17 分钟前
Leetcode—85. 最大矩形【困难】
经验分享·算法·leetcode·职场和发展·golang·单调栈
平哥努力学习ing29 分钟前
《数据结构》-第八章 排序
数据结构·算法·排序算法
CoovallyAIHub29 分钟前
为AI装上“纠偏”思维链,开源框架Robust-R1显著提升多模态大模型抗退化能力
深度学习·算法·计算机视觉
小棠师姐38 分钟前
随机森林原理与实战:如何解决过拟合问题?
算法·机器学习·随机森林算法·python实战·过拟合解决
范纹杉想快点毕业1 小时前
欧几里得算法与扩展欧几里得算法,C语言编程实现(零基础全解析)
运维·c语言·单片机·嵌入式硬件·算法
f***24111 小时前
Bug悬案:技术侦探的破案指南
算法·bug
Swift社区1 小时前
LeetCode 472 连接词
算法·leetcode·职场和发展
CoovallyAIHub1 小时前
YOLO-Maste开源:首个MoE加速加速实时检测,推理提速17.8%!
深度学习·算法·计算机视觉