【数据挖掘笔记】兴趣度度量Interest of an association rule

在数据挖掘中,关联规则挖掘是一个重要的任务。兴趣度度量是评估关联规则的重要指标,以下是三个常用的兴趣度度量:支持度、置信度和提升度。

支持度(Support)

计算方法

支持度表示包含项集的事务占总事务的比例,用于衡量项集的普遍性。其计算公式为:

对于关联规则 X→Y,其支持度计算公式为

含义及理解

支持度反映了项集或关联规则在整个数据集中的出现频率,用于衡量实用性,简单来说就是出现的越频繁,说明越实用。就好比明星粉丝越多,说明他在群众中收到的支持就越大,有一天他逃难收到的帮助可能性就越大。

置信度(Confidence)

计算方法

置信度表示在包含前项 X 的事务中,同时包含后项 Y 的比例,用于衡量关联规则的可靠性。其计算公式为:

含义及理解

置信度反映了关联规则的可信程度。本质上是条件概率,满足条件下得到结果的可靠性。

提升度(Lift)

计算方法

提升度表示关联规则中前项和后项之间的关联强度,用于衡量关联规则的关联性。其计算公式为:

含义及理解

提升度反映了关联规则中前项和后项之间的关联程度。但是很显然这太抽象了,有没有更通俗易懂的理解呢主包?有的!比如你买茶和咖啡,买茶后买咖啡的概率是0.75,但是单独买咖啡的概率是0.9,提升度就小于1,因为大家本来就爱买咖啡,但是买茶之后买咖啡的人数比例还减少了,说明喝茶的人中有一部分人发现了喝咖啡不健康,所以那部分人少了,所以买茶人群中的买咖啡比例才会从0.9减少到了0.75。

  • 如果提升度大于1,说明前项和后项之间存在正关联,即前项的出现会增加后项出现的可能性;
  • 如果提升度小于1,说明前项和后项之间存在负关联,即前项的出现会降低后项出现的可能性;
  • 如果提升度等于1,说明前项和后项之间相互独立,没有关联。
相关推荐
蒙奇D索大1 天前
【数据结构】考研数据结构核心考点:二叉排序树(BST)全方位详解与代码实现
数据结构·笔记·学习·考研·算法·改行学it
玲娜贝儿--努力学习买大鸡腿版1 天前
推荐算法学习笔记(十九)阿里SIM 模型
笔记·学习·推荐算法
MoRanzhi12031 天前
15. Pandas 综合实战案例(零售数据分析)
数据结构·python·数据挖掘·数据分析·pandas·matplotlib·零售
qq_436962181 天前
数据民主化实践:ChatBI赋能全民数据分析
数据挖掘·数据分析
我命由我123451 天前
Photoshop - Photoshop 工具栏(10)透视裁剪工具
经验分享·笔记·学习·ui·职场和发展·职场发展·photoshop
geneculture1 天前
融智学院十大学部知识架构示范样板
人工智能·数据挖掘·信息科学·哲学与科学统一性·信息融智学
JJJJ_iii1 天前
【深度学习03】神经网络基本骨架、卷积、池化、非线性激活、线性层、搭建网络
网络·人工智能·pytorch·笔记·python·深度学习·神经网络
玉石观沧海1 天前
高压变频器故障代码解析F67 F68
运维·经验分享·笔记·分布式·深度学习
初级炼丹师(爱说实话版)1 天前
MySql速成笔记5(多表关系)
笔记
iconball1 天前
个人用云计算学习笔记 --19 (MariaDB服务器)
linux·运维·笔记·学习·云计算