【模式识别与机器学习（18）】关联规则深入浅出教程

文章目录

- 一、支持度与置信度：关联规则的度量基础
- - [1.1 什么是支持度](#1.1 什么是支持度)
  - [1.2 什么是置信度](#1.2 什么是置信度)
  - [1.3 频繁项集与强关联规则](#1.3 频繁项集与强关联规则)
- 二、Apriori算法：基于先验原理的高效挖掘
- - [2.1 先验原理：减少候选项集的核心机制](#2.1 先验原理：减少候选项集的核心机制)
  - [2.2 逐层搜索：系统发现频繁项集](#2.2 逐层搜索：系统发现频繁项集)
  - [2.3 候选项集生成与剪枝](#2.3 候选项集生成与剪枝)
  - [2.4 支持度计数优化](#2.4 支持度计数优化)
- 三、FP-Growth算法：避免候选项集生成的直接挖掘
- - [3.1 FP树：压缩数据库的频繁模式树](#3.1 FP树：压缩数据库的频繁模式树)
  - [3.2 条件模式基与递归挖掘](#3.2 条件模式基与递归挖掘)
- 四、实战场景：电商购物篮分析
- - [4.1 业务痛点识别](#4.1 业务痛点识别)
  - [4.2 技术方案拆解](#4.2 技术方案拆解)
  - [4.3 长期适配策略](#4.3 长期适配策略)
- 总结
- - 通用应用逻辑公式
  - 落地模板清单

关联规则是发现数据中"什么与什么相伴"的强有力工具，通过支持度和置信度两个核心指标，从海量交易数据中自动挖掘出有价值的关联模式。本文以电商购物篮分析为实战场景，系统讲解关联规则的核心原理和Apriori算法，帮助读者理解如何从"买面包的人往往也买牛奶"这样的业务洞察中，掌握关联规则的技术本质和落地逻辑。

一、支持度与置信度：关联规则的度量基础

$!NOTE$
📝 关键点总结：支持度衡量规则出现的频率（是否常见），置信度衡量规则的可靠性（是否可信），两者结合才能发现真正有价值的关联规则。

核心指标：

支持度：项集在事务数据库中出现频率 = 包含项集的事务数 / 总事务数（判断规则是否常见）

置信度：规则的可信程度 = 支持度(X∪Y) / 支持度(X)（判断规则是否可靠）

最小支持度（minsup）：用户定义的阈值，过滤掉偶然出现的规则

最小置信度（minconf）：用户定义的阈值，过滤掉不可靠的规则

决策标准：支持度低 → 规则可能只是偶然出现，不值得关注；置信度低 → 规则不可靠，不能用于业务决策；只有同时满足最小支持度和最小置信度的规则才是强关联规则。

1.1 什么是支持度

问题：如何判断一个关联规则是否值得关注？

通俗理解 ：支持度就像统计"买面包的人也买牛奶"这种情况出现的频率，如果100次购物中只有1次出现这种情况，说明这个规则很罕见，可能只是偶然。核心作用：衡量项集在事务数据库中的出现频率，过滤掉偶然出现的规则。

本质原理 ：支持度定义为包含项集X的事务个数与总事务个数之比，即 Support(X) = |{d ∈ D | X ∈ d}| / |D|。设计原因 ：如果支持度太低，说明这个规则只是偶然出现，没有统计意义，不值得作为业务决策的依据。例如，在购物篮分析中，如果"买面包的人也买牛奶"只出现了1%，这个规则对业务价值很小。决策标准：支持度 < minsup → 规则不值得关注；支持度 ≥ minsup → 规则值得进一步分析。

应用边界：适合判断规则是否常见，但不能判断规则是否可靠。需要结合置信度才能发现强关联规则。

1.2 什么是置信度

问题：如何判断一个关联规则是否可靠？

通俗理解 ：置信度就像统计"买面包的人中有多少比例也买了牛奶"，如果100个买面包的人中有80个也买了牛奶，说明这个规则很可靠。核心作用：衡量规则的可信程度，判断当条件X出现时，结果Y出现的概率。

本质原理 ：置信度定义为既包含X也包含Y的事务个数与包含X的事务个数之比，即 Confidence(X→Y) = Support(X∪Y) / Support(X)。设计原因 ：支持度只能判断规则是否常见，但不能判断规则是否可靠。例如，"买面包的人也买牛奶"的支持度是60%，但如果买面包的人中只有30%买了牛奶，这个规则就不够可靠。决策标准：置信度 < minconf → 规则不可靠；置信度 ≥ minconf → 规则可靠，可以用于业务决策。

应用边界：适合判断规则是否可靠，但需要结合支持度才能发现强关联规则。高置信度但低支持度的规则可能只是偶然，不值得关注。

1.3 频繁项集与强关联规则

问题：如何从海量数据中发现有价值的关联规则？

通俗理解 ：频繁项集就像"经常一起出现的商品组合"，强关联规则就像"如果买了A，很可能也买B"这样的可靠规则。核心作用：通过最小支持度阈值发现频繁项集，通过最小置信度阈值从频繁项集中提取强关联规则。

本质原理 ：关联规则发现分为两个步骤：第一步，发现满足最小支持度阈值的所有项集（频繁项集）；第二步，从频繁项集中提取满足最小置信度阈值的规则（强关联规则）。设计原因 ：如果直接计算所有可能的规则，计算复杂度太高（包含d个项的数据集可以产生3^d-2(d+1)+1条规则）。通过两步法，先过滤掉不频繁的项集，再从中提取可靠的规则，可以大幅降低计算复杂度。决策标准：项集支持度 < minsup → 非频繁项集，不需要进一步分析；项集支持度 ≥ minsup → 频繁项集，需要进一步分析；规则置信度 < minconf → 弱规则，不值得关注；规则置信度 ≥ minconf → 强规则，可以用于业务决策。

应用边界：适合发现布尔关联规则（项之间是否存在关联），但不适合发现定量关联规则（项之间的数量关系）。需要根据业务需求设置合适的阈值。

二、Apriori算法：基于先验原理的高效挖掘

$!NOTE$
📝 关键点总结：Apriori算法通过先验原理（频繁项集的子集一定是频繁的）大幅减少候选项集数量，使用逐层搜索方法系统地发现所有频繁项集。

核心机制：

先验原理：如果一个项集是频繁的，则它的所有子集也一定是频繁的；如果一个项集是非频繁的，则它的所有超集也一定是非频繁的（利用支持度的反单调性）

逐层搜索：从频繁1项集开始，逐层生成频繁k项集，直到不能再找到频繁项集

候选项集生成：通过合并频繁(k-1)项集生成候选k项集，仅当前(k-1)个项相同时才合并

候选项集剪枝：使用先验原理删除包含非频繁子集的候选项集

决策标准：数据量大 → Apriori算法（通过先验原理减少候选项集）；需要发现所有频繁项集 → Apriori算法；频繁项集长度较短 → Apriori算法效果好；频繁项集长度较长 → 考虑FP-Growth算法。

2.1 先验原理：减少候选项集的核心机制

问题：如何避免计算所有可能的项集？

通俗理解 ：先验原理就像"如果一个人不买面包，那他肯定也不会买面包+牛奶的组合"，利用这个逻辑可以提前排除很多不必要的计算。核心作用：利用支持度的反单调性，如果一个项集是非频繁的，则它的所有超集也一定是非频繁的，从而大幅减少候选项集数量。

本质原理 ：先验原理基于支持度的反单调性：一个项集的支持度绝不会超过它的子集的支持度。因此，如果一个项集是非频繁的（支持度 < minsup），则它的所有超集也一定是非频繁的，不需要计算支持度就可以直接删除。设计原因 ：如果不使用先验原理，需要计算所有可能的项集（包含d个项的数据集可以产生2^d-1个项集），计算复杂度是指数级的。使用先验原理后，只需要计算频繁项集，可以大幅降低计算复杂度。例如，枚举所有项集（到3项集）的蛮力策略将产生C(6,1)+C(6,2)+C(6,3)=41个候选，使用先验原理后减少为C(6,1)+C(4,2)+1=13个候选。决策标准：项集非频繁 → 删除该项集的所有超集；项集频繁 → 保留该项集，用于生成更大的候选项集。

应用边界：适合布尔关联规则挖掘，但需要多次扫描数据库（每层一次扫描）。对于频繁项集长度较长的场景，计算复杂度仍然较高。

2.2 逐层搜索：系统发现频繁项集

问题：如何系统地发现所有频繁项集？

通俗理解 ：逐层搜索就像"先找单个商品，再找两个商品的组合，再找三个商品的组合"，一层一层地发现频繁项集。核心作用：从频繁1项集开始，逐层生成频繁k项集，直到不能再找到频繁项集，系统地发现所有频繁项集。

本质原理 ：Apriori算法使用逐层搜索（宽度优先）的迭代搜索方法：首先扫描数据库，累计每个项的计数，找出频繁1项集L1；然后L1用于找频繁2项集L2；L2用于找频繁3项集L3；如此下去，直到不能再找到频繁k项集。设计原因 ：逐层搜索可以系统地控制候选项集的指数增长，每层只需要扫描一次数据库，计算复杂度可控。如果使用深度优先搜索，虽然可以更快地检测到频繁项集边界，但需要更多存储空间。决策标准：频繁项集长度较短 → 逐层搜索效果好；频繁项集长度较长 → 考虑使用深度优先搜索或FP-Growth算法；需要发现所有频繁项集 → 逐层搜索；只需要发现最大频繁项集 → 考虑深度优先搜索。

应用边界：适合发现所有频繁项集，但需要多次扫描数据库。对于大规模数据，可以通过事务压缩、划分等方法提高效率。

2.3 候选项集生成与剪枝

问题：如何高效地生成和筛选候选项集？

通俗理解 ：候选项集生成就像"把两个频繁项集合并成一个更大的候选项集"，候选项集剪枝就像"如果合并后的候选项集包含非频繁子集，就删除它"。核心作用：通过合并频繁(k-1)项集生成候选k项集，使用先验原理删除包含非频繁子集的候选项集。

本质原理 ：候选项集生成使用F(k-1)×F(k-1)方法：合并一对频繁(k-1)项集，仅当它们的前(k-1)个项都相同时才合并。例如，合并A={a1, a2, ..., ak-1}和B={b1, b2, ..., bk-1}，如果ai=bi (i=1,2,...,k-2)且ak-1≠bk-1，则合并为{a1, a2, ..., ak-1, bk-1}。候选项集剪枝使用先验原理：删除包含非频繁(k-1)项集的候选项集。设计原因 ：F(k-1)×F(k-1)方法可以避免产生重复的候选项集（使用字典序），比蛮力方法（产生所有k项集）和F(k-1)×F1方法（可能产生不必要的候选）更高效。候选项集剪枝可以大幅减少需要计算支持度的候选项集数量。决策标准：候选项集包含非频繁子集 → 删除；候选项集的所有子集都是频繁的 → 保留，计算支持度；支持度 < minsup → 非频繁项集；支持度 ≥ minsup → 频繁项集。

应用边界：适合布尔关联规则挖掘，但候选项集生成和剪枝的计算复杂度仍然较高。对于大规模数据，可以使用Hash树等方法减少比较次数。

2.4 支持度计数优化

问题：如何减少支持度计算时的比较次数？

通俗理解 ：Hash树方法就像"把候选项集分类存放在不同的桶里，只和同一个桶里的候选项集比较"，避免和所有候选项集比较。核心作用：使用Hash树等数据结构存储候选项集，减少支持度计算时的比较次数。

本质原理 ：Hash树方法将候选项集划分为不同的桶，并存放在Hash树中。在支持度计数期间，包含在事务中的项集也散列到相应的桶中，只与同一桶内的候选项集进行匹配。例如，使用Hash函数h§=p mod 3，将候选项集散列到不同的桶中，事务中的项集也散列到相应的桶中，只与同一桶内的候选项集比较。设计原因 ：蛮力方法需要将每个事务与所有候选项集进行比较，计算复杂度是O(n×|Ck|)，其中n是事务数，|Ck|是候选项集数。Hash树方法只需要与同一桶内的候选项集比较，可以大幅减少比较次数。决策标准：候选项集数量少 → 蛮力方法即可；候选项集数量多 → Hash树方法；事务数量多 → Hash树方法效果更好。

应用边界：适合候选项集数量较多的场景，但Hash树的构建和维护需要额外开销。对于候选项集数量很少的场景，蛮力方法可能更简单。

三、FP-Growth算法：避免候选项集生成的直接挖掘

$!NOTE$
📝 关键点总结：FP-Growth算法通过构建FP树（频繁模式树）压缩数据库，避免候选项集生成，直接产生频繁项集，适合频繁项集长度较长的场景。

核心机制：

FP树构建：将数据库压缩到一棵频繁模式树，保留项集关联信息（只存储频繁项，按支持度降序排列）

条件模式基：为每个频繁项构建条件模式基（包含该项的所有路径的前缀）

条件FP树：基于条件模式基构建条件FP树，递归挖掘频繁项集

决策标准：频繁项集长度较长 → FP-Growth算法（避免候选项集生成）；数据密集（事务包含很多项） → FP-Growth算法效果好；数据稀疏（事务包含很少项） → Apriori算法可能更简单；需要多次挖掘 → FP-Growth算法（FP树可以复用）。

3.1 FP树：压缩数据库的频繁模式树

问题：如何避免候选项集生成，直接产生频繁项集？

通俗理解 ：FP树就像"把购物记录压缩成一棵树，相同的前缀共享同一个节点"，这样就不需要生成候选项集，直接从树中挖掘频繁项集。核心作用：将数据库压缩到一棵频繁模式树，保留项集关联信息，避免候选项集生成。

本质原理 ：FP树（Frequent-Pattern Tree）是一种压缩的数据结构，只存储频繁项，按支持度降序排列。相同前缀的路径共享同一个节点，每个节点存储项名和支持度计数。设计原因 ：Apriori算法需要生成候选项集，计算复杂度较高。FP-Growth算法通过构建FP树，将数据库压缩，避免候选项集生成，直接产生频繁项集，计算复杂度更低。对于频繁项集长度较长的场景，FP-Growth算法的优势更明显。决策标准：频繁项集长度较长 → FP-Growth算法；数据密集 → FP-Growth算法效果好；数据稀疏 → Apriori算法可能更简单；需要多次挖掘 → FP-Growth算法（FP树可以复用）。

应用边界：适合频繁项集长度较长的场景，但FP树的构建需要扫描数据库两次（第一次统计支持度，第二次构建FP树）。对于数据稀疏的场景，Apriori算法可能更简单。

3.2 条件模式基与递归挖掘

问题：如何从FP树中挖掘频繁项集？

通俗理解 ：条件模式基就像"找出所有包含某个频繁项的路径的前缀"，然后基于这些前缀递归挖掘频繁项集。核心作用：为每个频繁项构建条件模式基，基于条件模式基构建条件FP树，递归挖掘频繁项集。

本质原理 ：FP-Growth算法从FP树的底部（支持度最低的频繁项）开始，为每个频繁项构建条件模式基（包含该项的所有路径的前缀），基于条件模式基构建条件FP树，递归挖掘频繁项集。例如，对于频繁项e，找出所有包含e的路径的前缀，构建条件FP树，递归挖掘以e为后缀的频繁项集。设计原因 ：通过递归挖掘，可以系统地发现所有频繁项集，而不需要生成候选项集。条件模式基只包含频繁项，可以大幅减少搜索空间。决策标准：频繁项集长度较长 → 递归挖掘效果好；数据密集 → 递归挖掘效率高；需要发现所有频繁项集 → 递归挖掘；只需要发现最大频繁项集 → 可以考虑其他方法。

应用边界：适合频繁项集长度较长的场景，但递归挖掘需要构建多个条件FP树，内存开销较大。对于数据稀疏的场景，Apriori算法可能更简单。

四、实战场景：电商购物篮分析

4.1 业务痛点识别

电商平台积累了海量交易数据，但不知道哪些商品经常一起被购买，无法制定有效的商品推荐和搭配销售策略。传统的人工分析方式效率低、成本高，且容易遗漏有价值的关联模式。

4.2 技术方案拆解

第一步：数据准备与参数设置

将交易数据转换为事务数据库格式，每个事务代表一次购物记录，包含购买的商品列表。根据业务需求设置最小支持度（如60%）和最小置信度（如75%），过滤掉偶然出现的规则和不可靠的规则。

第二步：发现频繁项集

使用Apriori算法或FP-Growth算法发现频繁项集。如果频繁项集长度较短（如2-3项），使用Apriori算法；如果频繁项集长度较长（如5项以上），使用FP-Growth算法。通过先验原理或FP树，高效地发现所有频繁项集。

第三步：生成强关联规则

从频繁项集中提取满足最小置信度阈值的规则。例如，如果"面包、牛奶"是频繁项集，且"面包→牛奶"的置信度≥75%，则生成强关联规则"买面包的人也买牛奶"。

第四步：业务应用

将强关联规则应用于商品推荐、搭配销售、库存管理等业务场景。例如，在用户购买面包时，推荐牛奶；将面包和牛奶放在相邻位置，促进搭配销售。

4.3 长期适配策略

数据更新策略：定期重新挖掘关联规则，适应商品和用户行为的变化。对于新增商品，可以增量更新关联规则。

参数调优策略：根据业务效果调整最小支持度和最小置信度。如果规则太多，提高阈值；如果规则太少，降低阈值。

算法选择策略：根据数据特点选择合适的算法。数据密集且频繁项集长度较长 → FP-Growth算法；数据稀疏且频繁项集长度较短 → Apriori算法。

总结

通用应用逻辑公式

关联规则挖掘的通用流程可以总结为5个步骤：

数据准备：将业务数据转换为事务数据库格式，设置最小支持度和最小置信度阈值
频繁项集发现：使用Apriori算法（先验原理+逐层搜索）或FP-Growth算法（FP树+递归挖掘）发现频繁项集
规则生成：从频繁项集中提取满足最小置信度阈值的规则
规则评估：使用提升度、卡方检验等指标评估规则的有趣程度，过滤掉误导性规则
业务应用：将强关联规则应用于推荐系统、营销策略、库存管理等业务场景

落地模板清单

关联规则挖掘实施清单：

数据准备：✓ 将业务数据转换为事务数据库格式 ✓ 设置最小支持度阈值（建议从20%开始） ✓ 设置最小置信度阈值（建议从60%开始）
算法选择：✓ 频繁项集长度较短（≤3项）→ Apriori算法 ✓ 频繁项集长度较长（>3项）→ FP-Growth算法 ✓ 数据密集 → FP-Growth算法 ✓ 数据稀疏 → Apriori算法
规则评估：✓ 计算支持度和置信度 ✓ 计算提升度（lift）判断规则是否有趣 ✓ 使用卡方检验判断规则的统计显著性
业务应用：✓ 商品推荐：在用户购买A时推荐B ✓ 搭配销售：将A和B放在相邻位置 ✓ 库存管理：根据关联规则优化库存配置
效果监控：✓ 定期重新挖掘关联规则 ✓ 根据业务效果调整阈值 ✓ 监控规则的应用效果

正如John Tyndall所说："有了精确的实验和观测作为研究的依据，想象力便成为自然科学理论的设计师。"关联规则挖掘正是通过精确的数据分析和统计方法，发现数据中隐藏的关联模式，为业务决策提供科学依据。

参考文献：

R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large Databases. In Proc. 1993 ACM-SIGMOD Int. Conf. Management of Data (SIGMOD'93), pages 207-216, Washington, DC, May 1993.
R. Agrawal and R. Srikant. Fast Algorithm for Mining Association Rules. Proceedings of the 20th VLDB Conference, Chile, 1994.
J.Han, J.Pei, and Y.Yin. Mining Frequent Patterns without Candidate Generation. In Proc. ACM-SIGMOD Int. Conf. on Management of Data (SIGMOD'00), pages 1-12, Dallas, TX, May 2000.
Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques (Third Edition)