数据挖掘——关联规则挖掘

关联数据挖掘

关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系，所发现的模式通常用关联规则或频繁项集的形式表示。

关联规则反映一个事物与其它事物 之间的相互依存性和关联性。如果两个或者多个事物之间 存在一定的关联关系，那么，其中一个事物发生就能够预测与它相关联的其它事物的发生。

定义：频繁项集

项集（Itemset）

支持度计数（Supportcount）( σ \sigma σ)

支持度（Support）

频繁项集（FrequentItemset）

频繁闭项集

所谓闭项集，就是指一个项集X，它的直接超集的支持度计数都不等于它本身的支持度计数。如果闭项集同时是频繁的，也就是它的支持度大于等于最小支持度阈值，那它就称为闭频繁项集。

最大频繁项集

最大频繁项集是这样的频繁项集，它的直接超集都不是频繁的

关联规则是形如X →Y的蕴含表达式, 其中 X 和 Y 是不相交的项集

关联规则的强度

给定事务的集合 T, 关联规则发现是指找出支持度大于等于minsup 并且置信度大于等于minconf的所有规则, minsup和minconf是对应的支持度和置信度阈值

大多数关联规则挖掘算法通常采用的一种策略是，将关联规则挖掘任务分解为如下两个主要的子任务：

降低产生频繁项集计算复杂度的方法：

先验原理：

需要一提的是Apriori中所运用到的项的连接准则：

项的连接准则：去掉尾项之后如果二者一样则可以连接

例如本例中{A,C},{B,C},{B,E},{C,E}四者，只有{B,C},{B,E}，两者去掉尾项后的B是相等的，所以是可以连接的{B,C,E}

Apriori算法特点：

优点

缺点

Apriori算法需要反复的生成候选项，如果项的数目比较大，候选项的数目将达到组合爆炸式的增长

提高Apriori算法性能的方法 ：

任务描述：给定频繁项集Y, 查找Y的所有非空真子集 X ∈ Y X \in Y X∈Y，使得 X → Y -- X X \rightarrow Y --X X→Y--X 的置信度超过最小置信度阈值minconf

例子：If {A,B,C} is a frequent itemset, 候选规则如下：
A B → C A → B C A C → B B → A C B C → A C → A B AB \rightarrow C\\ A\rightarrow BC\\ AC \rightarrow B\\ B \rightarrow AC\\ BC \rightarrow A\\ C \rightarrow AB AB→CA→BCAC→BB→ACBC→AC→AB
如果 |Y| = k, 那么会有 2k--2 个候选关联规则 (不包括 Y → ∅ 、 ∅ → Y Y→\emptyset、 \empty →Y Y→∅、∅→Y）

如何高效地从频繁项集中产生关联规则?

通常置信度不满足反单调性（anti-monotone property ），例如：
c(ABC →D) 可能大于也可能小于 c(AB →D)
但是，针对同一个频繁项集的关联规则，如果规则的后件满足子集关系 ，那么这些规则的置信度间满足反单调性
e.g., Y = A , B , C , D c ( A B C → D ) ≥ c ( A B → C D ) ≥ c ( A → B C D ) Y= {A,B,C,D}\\ c(ABC → D) \geq c(AB → CD) \geq c(A → BCD) Y=A,B,C,Dc(ABC→D)≥c(AB→CD)≥c(A→BCD)