数据仓库作业五:第8章 关联规则挖掘

目录

    • [第8章 关联规则挖掘](#第8章 关联规则挖掘)

第8章 关联规则挖掘

作业题

1、设4-项集 X = { a , b , c , d } X=\{a,b,c,d\} X={a,b,c,d},试求出由 X X X 导出的所有关联规则。

解:

首先生成项集的所有非空真子集。这包括:
{ a } , { b } , { c } , { d } \{a\},\{b\},\{c\},\{d\} {a},{b},{c},{d}
{ a , b } , { a , c } , { a , d } , { b , c } , { b , d } , { c , d } \{a,b\},\{a,c\},\{a,d\},\{b,c\},\{b,d\},\{c,d\} {a,b},{a,c},{a,d},{b,c},{b,d},{c,d}
{ a , b , c } , { a , b , d } , { a , c , d } , { b , c , d } \{a,b,c\},\{a,b,d\},\{a,c,d\},\{b,c,d\} {a,b,c},{a,b,d},{a,c,d},{b,c,d}

对于每个非真空子集,生成相应的关联规则。一般地,对于子集 { A } \{A\} {A},关联规则的形式是 { X } ⇒ { X − A } \{X\}\Rightarrow\{X-A\} {X}⇒{X−A},其中 X − A X-A X−A 表示项集 X X X 中不包含在 A A A 中的项。

下面是所有可能的关联规则:

{ a } ⇒ { b , c , d } , { b } ⇒ { a , c , d } , { c } ⇒ { a , b , d } , { d } ⇒ { a , b , c } , \{a\}\Rightarrow\{b,c,d\},\{b\}\Rightarrow\{a,c,d\},\{c\}\Rightarrow\{a,b,d\},\{d\}\Rightarrow\{a,b,c\}, {a}⇒{b,c,d},{b}⇒{a,c,d},{c}⇒{a,b,d},{d}⇒{a,b,c},

{ a , b } ⇒ { c , d } , { a , c } ⇒ { b , d } , { a , d } ⇒ { b , c } , { b , c } ⇒ { a , d } , { b , d } ⇒ { a , c } , { c , d } ⇒ { a , b } , \{a,b\}\Rightarrow\{c,d\},\{a,c\}\Rightarrow\{b,d\},\{a,d\}\Rightarrow\{b,c\},\{b,c\}\Rightarrow\{a,d\},\{b,d\}\Rightarrow\{a,c\},\{c,d\}\Rightarrow\{a,b\}, {a,b}⇒{c,d},{a,c}⇒{b,d},{a,d}⇒{b,c},{b,c}⇒{a,d},{b,d}⇒{a,c},{c,d}⇒{a,b},

{ a , b , c } ⇒ { d } , { a , b , d } ⇒ { c } , { a , c , d } ⇒ { b } , { b , c , d } ⇒ { a } \{a,b,c\}\Rightarrow\{d\},\{a,b,d\}\Rightarrow\{c\},\{a,c,d\}\Rightarrow\{b\},\{b,c,d\}\Rightarrow\{a\} {a,b,c}⇒{d},{a,b,d}⇒{c},{a,c,d}⇒{b},{b,c,d}⇒{a}

这些规则代表了项集导出的所有可能的关联规则。

2、设有交易数据库如下表1所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集。

T i d T_{id} Tid 顾客id 购买商品 购买日期
t 1 t_1 t1 c 01 c_{01} c01 { a , b } \{a,b\} {a,b} 2015.03.01
t 2 t_2 t2 c 02 c_{02} c02 { c , b , d } \{c,b,d\} {c,b,d} 2015.03.01
t 3 t_3 t3 c 01 c_{01} c01 { c } \{c\} {c} 2015.03.03
t 4 t_4 t4 c 02 c_{02} c02 { b , d } \{b,d\} {b,d} 2015.03.03

解:

因为最小支持度 M i n S = 0.3 MinS=0.3 MinS=0.3,事务数据库有4条记录, M i n S p t N = 0.3 × 4 = 1.2 MinSptN=0.3\times4=1.2 MinSptN=0.3×4=1.2,所以最小支持数 M i n S p t N = 2 MinSptN=2 MinSptN=2。

如下表,候选频繁1-项集 C 1 C_1 C1和频繁1-项集 L 1 L_1 L1:

如下表,候选频繁2-项集 C 2 C_2 C2和频繁2-项集 L 2 L_2 L2:

得所有的频繁项集为 L = L 2 = { { b , d } } L=L_2=\{\{b,d\}\} L=L2={{b,d}}。

3、对如表1所示的交易数据库,令MinC=0.6,试在习题2所得频繁项集的基础上,求出所有的强关联规则。

解:

由题可知,最小置信度 M i n C = 0.6 MinC=0.6 MinC=0.6,
C o n f i d e n c e ( { b } ⇒ { d } ) = S u p p o r t ( { b , d } ) S u p p o r t ( { b } = 2 3 ≈ 0.67 > 0.6 Confidence(\{b\}\Rightarrow\{d\})=\frac{Support(\{b,d\})}{Support(\{b\}}=\frac{2}{3}\approx0.67>0.6 Confidence({b}⇒{d})=Support({b}Support({b,d})=32≈0.67>0.6 C o n f i d e n c e ( { d } ⇒ { b } ) = S u p p o r t ( { b , d } ) S u p p o r t ( { d } = 2 2 = 1 > 0.6 Confidence(\{d\}\Rightarrow\{b\})=\frac{Support(\{b,d\})}{Support(\{d\}}=\frac{2}{2}=1>0.6 Confidence({d}⇒{b})=Support({d}Support({b,d})=22=1>0.6

所以 { b } ⇒ { d } \{b\}\Rightarrow\{d\} {b}⇒{d}, { d } ⇒ { b } \{d\}\Rightarrow\{b\} {d}⇒{b} 都是强关联规则。

4、设有交易数据库如表2所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集。

T i d T_{id} Tid 顾客id 购买商品 购买日期
t 1 t_1 t1 c 01 c_{01} c01 { a , b , e } \{a,b,e\} {a,b,e} 2015.03.01
t 2 t_2 t2 c 02 c_{02} c02 { b , d } \{b,d\} {b,d} 2015.03.01
t 3 t_3 t3 c 03 c_{03} c03 { b , c } \{b,c\} {b,c} 2015.03.01
t 4 t_4 t4 c 01 c_{01} c01 { a , b , d } \{a,b,d\} {a,b,d} 2015.03.03
t 5 t_5 t5 c 02 c_{02} c02 { a , c } \{a,c\} {a,c} 2015.03.03
t 6 t_6 t6 c 03 c_{03} c03 { b , c } \{b,c\} {b,c} 2015.03.03
t 7 t_7 t7 c 01 c_{01} c01 { a , c } \{a,c\} {a,c} 2015.03.05
t 8 t_8 t8 c 03 c_{03} c03 { a , b , c , e } \{a,b,c,e\} {a,b,c,e} 2015.03.05
t 9 t_9 t9 c 03 c_{03} c03 { a , b , c } \{a,b,c\} {a,b,c} 2015.03.06

解:

因为最小支持度 M i n S = 0.3 MinS=0.3 MinS=0.3,事务数据库有9条记录, M i n S p t N = 0.3 × 9 = 2.7 MinSptN=0.3\times9=2.7 MinSptN=0.3×9=2.7,所以最小支持数 M i n S p t N = 3 MinSptN=3 MinSptN=3。

如下表,候选频繁1-项集 C 1 C_1 C1和频繁1-项集 L 1 L_1 L1:

如下表,候选频繁2-项集 C 2 C_2 C2和频繁2-项集 L 2 L_2 L2:

如下表,候选频繁3-项集 C 3 C_3 C3:

得所有的频繁项集为 L = L 2 = { { a , b } , { a , c } , { b , c } } L=L_2=\{\{a,b\},\{a,c\},\{b,c\}\} L=L2={{a,b},{a,c},{b,c}}。

5、对如表2所示的交易数据库,令MinC=0.6,试在习题4所得频繁项集的基础上,求出所有的强关联规则。

解:

由题可知,最小置信度 M i n C = 0.6 MinC=0.6 MinC=0.6,
C o n f i d e n c e ( { a } ⇒ { b } ) = S u p p o r t ( { a , b } ) S u p p o r t ( { a } = 4 6 ≈ 0.67 > 0.6 Confidence(\{a\}\Rightarrow\{b\})=\frac{Support(\{a,b\})}{Support(\{a\}}=\frac{4}{6}\approx0.67>0.6 Confidence({a}⇒{b})=Support({a}Support({a,b})=64≈0.67>0.6 C o n f i d e n c e ( { b } ⇒ { a } ) = S u p p o r t ( { a , b } ) S u p p o r t ( { b } = 4 7 ≈ 0.57 < 0.6 Confidence(\{b\}\Rightarrow\{a\})=\frac{Support(\{a,b\})}{Support(\{b\}}=\frac{4}{7}\approx0.57<0.6 Confidence({b}⇒{a})=Support({b}Support({a,b})=74≈0.57<0.6 C o n f i d e n c e ( { a } ⇒ { c } ) = S u p p o r t ( { a , c } ) S u p p o r t ( { a } = 4 6 ≈ 0.67 > 0.6 Confidence(\{a\}\Rightarrow\{c\})=\frac{Support(\{a,c\})}{Support(\{a\}}=\frac{4}{6}\approx0.67>0.6 Confidence({a}⇒{c})=Support({a}Support({a,c})=64≈0.67>0.6 C o n f i d e n c e ( { c } ⇒ { a } ) = S u p p o r t ( { a , c } ) S u p p o r t ( { c } = 4 6 ≈ 0.67 > 0.6 Confidence(\{c\}\Rightarrow\{a\})=\frac{Support(\{a,c\})}{Support(\{c\}}=\frac{4}{6}\approx0.67>0.6 Confidence({c}⇒{a})=Support({c}Support({a,c})=64≈0.67>0.6 C o n f i d e n c e ( { b } ⇒ { c } ) = S u p p o r t ( { b , c } ) S u p p o r t ( { b } = 4 7 ≈ 0.57 < 0.6 Confidence(\{b\}\Rightarrow\{c\})=\frac{Support(\{b,c\})}{Support(\{b\}}=\frac{4}{7}\approx0.57<0.6 Confidence({b}⇒{c})=Support({b}Support({b,c})=74≈0.57<0.6 C o n f i d e n c e ( { c } ⇒ { b } ) = S u p p o r t ( { b , c } ) S u p p o r t ( { c } = 4 6 ≈ 0.67 > 0.6 Confidence(\{c\}\Rightarrow\{b\})=\frac{Support(\{b,c\})}{Support(\{c\}}=\frac{4}{6}\approx0.67>0.6 Confidence({c}⇒{b})=Support({c}Support({b,c})=64≈0.67>0.6

所以 { a } ⇒ { b } \{a\}\Rightarrow\{b\} {a}⇒{b}, { a } ⇒ { c } \{a\}\Rightarrow\{c\} {a}⇒{c}, { c } ⇒ { a } \{c\}\Rightarrow\{a\} {c}⇒{a}, { c } ⇒ { b } \{c\}\Rightarrow\{b\} {c}⇒{b} 是强关联规则。

相关推荐
C7211BA4 小时前
使用knn算法对iris数据集进行分类
算法·分类·数据挖掘
紫钺-高山仰止4 小时前
【脑机接口】脑机接口性能的电压波形的尖峰分类和阈值比较
大数据·分类·数据挖掘
阡之尘埃6 小时前
Python数据分析案例59——基于图神经网络的反欺诈交易检测(GCN,GAT,GIN)
python·神经网络·数据挖掘·数据分析·图神经网络·反欺诈·风控大数据
经纬恒润8 小时前
应用案例分享 | 智驾路试数据分析及 SiL/HiL 回灌案例介绍
数据挖掘·数据分析·智能驾驶·ai智能体
天地风雷水火山泽13 小时前
二百六十六、Hive——Hive的DWD层数据清洗、清洗记录、数据修复、数据补全
数据仓库·hive·hadoop
大数据深度洞察15 小时前
Hive企业级调优[2]—— 测试用表
数据仓库·hive·hadoop
ShuQiHere18 小时前
【ShuQiHere】 探索数据挖掘的世界:从概念到应用
人工智能·数据挖掘
江畔独步20 小时前
Hive内置集合函数-size,map_keys,map_values,sort_array,array_contains
数据仓库·hive·hadoop
天地风雷水火山泽21 小时前
二百六十五、Hive——目前Hive数仓各层表样例
数据仓库·hive·hadoop
棉花糖灬21 小时前
Hive常用函数
数据仓库·hive·hadoop