什么是Jaccard 相似度（Jaccard Similarity）

音程2025-07-13 14:20

文章目录

- - [✅ 定义：](#✅ 定义：)
  - [📌 取值范围：](#📌 取值范围：)
  - [🔍 举例说明：](#🔍 举例说明：)
  - [🧠 应用场景：](#🧠 应用场景：)
  - [⚠️ 局限性：](#⚠️ 局限性：)
  - [💡 扩展概念：](#💡 扩展概念：)

Jaccard 相似度（Jaccard Similarity） 是一种用于衡量两个集合之间相似程度的指标，广泛应用于信息检索、文本挖掘、推荐系统和自然语言处理等领域。

✅ 定义：

给定两个集合 A A A 和 B B B，Jaccard 相似度定义为它们的交集大小与并集大小的比值：

Jaccard Similarity ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ \text{Jaccard Similarity}(A, B) = \frac{|A \cap B|}{|A \cup B|} Jaccard Similarity(A,B)=∣A∪B∣∣A∩B∣

∣ A ∩ B ∣ |A \cap B| ∣A∩B∣：集合 A A A 和 B B B 中共同元素的数量
∣ A ∪ B ∣ |A \cup B| ∣A∪B∣：集合 A A A 和 B B B 中所有不同元素的总数

📌 取值范围：

Jaccard 相似度的取值范围在 0 到 1 之间：
- 0：表示两个集合没有交集，完全不相似；
- 1：表示两个集合完全相同，完全相似。

🔍 举例说明：

假设：

A = { apple , banana , orange } A = \{\text{apple}, \text{banana}, \text{orange}\} A={apple,banana,orange}
B = { banana , grape , orange , pear } B = \{\text{banana}, \text{grape}, \text{orange}, \text{pear}\} B={banana,grape,orange,pear}

那么：

A ∩ B = { banana , orange } A \cap B = \{\text{banana}, \text{orange}\} A∩B={banana,orange} → 大小为 2
A ∪ B = { apple , banana , orange , grape , pear } A \cup B = \{\text{apple}, \text{banana}, \text{orange}, \text{grape}, \text{pear}\} A∪B={apple,banana,orange,grape,pear} → 大小为 5

计算：

Jaccard Similarity ( A , B ) = 2 5 = 0.4 \text{Jaccard Similarity}(A, B) = \frac{2}{5} = 0.4 Jaccard Similarity(A,B)=52=0.4

🧠 应用场景：

文本相似度比较：将两段文本视为词集合，计算它们的 Jaccard 相似度，判断内容是否相似。
关键词匹配：比较两个文档或查询的关键词集合之间的重合度。
推荐系统：评估用户兴趣集合之间的相似性。
模型输出分析：如你之前提到的内容中，用来比较 LLM 不同层前后映射出的 top-k token 的变化情况。
数据去重/聚类：识别重复或高度相似的数据项。

⚠️ 局限性：

不考虑频率：Jaccard 只关心元素是否存在，不考虑出现次数（即它是基于集合而不是多重集合或多袋模型 bag-of-words）。
对大规模集合计算效率低：当集合很大时，计算交集和并集可能较慢。

💡 扩展概念：

Jaccard 距离 ：用来衡量两个集合的不相似程度，公式为：
Jaccard Distance = 1 − Jaccard Similarity \text{Jaccard Distance} = 1 - \text{Jaccard Similarity} Jaccard Distance=1−Jaccard Similarity
Tanimoto 系数：有时也被称作 Jaccard 相似度，但通常用于向量空间中的一种扩展形式。

上一篇：预测概率的先验校准

下一篇：程序员软技能之推广营销-05-头部效应（Head Effect）

热门推荐

01GitHub 镜像站点 02Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 03openclaw配置教程（linux+局域网ollama）04UV安装并设置国内源 05Linux下V2Ray安装配置指南 06AI 规范驱动开发“三剑客”深度对比：Spec-Kit、Kiro 与 OpenSpec 实战指南 07openclaw使用nginx反代部署过程与disconnected (1008): pairing required解决 08在Trae中使用Pencil MCP 09Claude Code Skills 实用使用手册 10OpenClaw Chrome扩展使用教程 - 浏览器中继控制