什么是Jaccard 相似度(Jaccard Similarity)

文章目录

      • [✅ 定义:](#✅ 定义:)
      • [📌 取值范围:](#📌 取值范围:)
      • [🔍 举例说明:](#🔍 举例说明:)
      • [🧠 应用场景:](#🧠 应用场景:)
      • [⚠️ 局限性:](#⚠️ 局限性:)
      • [💡 扩展概念:](#💡 扩展概念:)

Jaccard 相似度(Jaccard Similarity) 是一种用于衡量两个集合之间相似程度的指标,广泛应用于信息检索、文本挖掘、推荐系统和自然语言处理等领域。


✅ 定义:

给定两个集合 A A A 和 B B B,Jaccard 相似度定义为它们的交集大小与并集大小的比值:

Jaccard Similarity ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ \text{Jaccard Similarity}(A, B) = \frac{|A \cap B|}{|A \cup B|} Jaccard Similarity(A,B)=∣A∪B∣∣A∩B∣

  • ∣ A ∩ B ∣ |A \cap B| ∣A∩B∣:集合 A A A 和 B B B 中共同元素的数量
  • ∣ A ∪ B ∣ |A \cup B| ∣A∪B∣:集合 A A A 和 B B B 中所有不同元素的总数

📌 取值范围:

  • Jaccard 相似度的取值范围在 0 到 1 之间:
    • 0:表示两个集合没有交集,完全不相似;
    • 1:表示两个集合完全相同,完全相似。

🔍 举例说明:

假设:

  • A = { apple , banana , orange } A = \{\text{apple}, \text{banana}, \text{orange}\} A={apple,banana,orange}
  • B = { banana , grape , orange , pear } B = \{\text{banana}, \text{grape}, \text{orange}, \text{pear}\} B={banana,grape,orange,pear}

那么:

  • A ∩ B = { banana , orange } A \cap B = \{\text{banana}, \text{orange}\} A∩B={banana,orange} → 大小为 2
  • A ∪ B = { apple , banana , orange , grape , pear } A \cup B = \{\text{apple}, \text{banana}, \text{orange}, \text{grape}, \text{pear}\} A∪B={apple,banana,orange,grape,pear} → 大小为 5

计算:

Jaccard Similarity ( A , B ) = 2 5 = 0.4 \text{Jaccard Similarity}(A, B) = \frac{2}{5} = 0.4 Jaccard Similarity(A,B)=52=0.4


🧠 应用场景:

  1. 文本相似度比较:将两段文本视为词集合,计算它们的 Jaccard 相似度,判断内容是否相似。
  2. 关键词匹配:比较两个文档或查询的关键词集合之间的重合度。
  3. 推荐系统:评估用户兴趣集合之间的相似性。
  4. 模型输出分析:如你之前提到的内容中,用来比较 LLM 不同层前后映射出的 top-k token 的变化情况。
  5. 数据去重/聚类:识别重复或高度相似的数据项。

⚠️ 局限性:

  • 不考虑频率:Jaccard 只关心元素是否存在,不考虑出现次数(即它是基于集合而不是多重集合或多袋模型 bag-of-words)。
  • 对大规模集合计算效率低:当集合很大时,计算交集和并集可能较慢。

💡 扩展概念:

  • Jaccard 距离 :用来衡量两个集合的不相似程度,公式为:
    Jaccard Distance = 1 − Jaccard Similarity \text{Jaccard Distance} = 1 - \text{Jaccard Similarity} Jaccard Distance=1−Jaccard Similarity

  • Tanimoto 系数:有时也被称作 Jaccard 相似度,但通常用于向量空间中的一种扩展形式。

相关推荐
啦啦啦_999911 小时前
0. 深度学习课程大纲:
深度学习
张二娃同学15 小时前
第08篇_RNN_LSTM_GRU序列模型
人工智能·python·rnn·深度学习·神经网络·gru·lstm
源码之家16 小时前
计算机毕业设计:Pyhon健康数据分析系统 Django框架 数据分析 可视化 身体数据分析 大数据(建议收藏)✅
大数据·python·数据挖掘·数据分析·django·lstm·课程设计
Fleshy数模16 小时前
基于 LangChain 实现 PDF 文档检索:从加载到向量检索全流程
人工智能·数据挖掘·langchain·大模型
动物园猫17 小时前
交通标识与信号灯数据集分享(适用于YOLO系列深度学习检测任务)
人工智能·深度学习·yolo
YangYang9YangYan17 小时前
2026运营岗位学习数据分析对于提升个人能力的价值
学习·数据挖掘·数据分析
书生的梦17 小时前
《神经网络与深度学习》学习笔记(一)
笔记·深度学习·神经网络
AI医影跨模态组学17 小时前
Insights Imaging(IF=4.5)郑州大学第一附属医院高剑波等团队:基于CT的影像组学预测不可切除胃癌PD-1/PD-L1抑制剂联合化疗治疗反应
人工智能·深度学习·论文·医学·医学影像·影像组学
沪漂阿龙17 小时前
面试题:Transformer 模型详解——核心创新、编码器解码器结构、位置编码、因果掩码与大模型基础全解析
人工智能·深度学习·transformer
沪漂阿龙18 小时前
面试题:预训练模型详解——GPT、BERT、T5 结构与训练目标、预训练微调范式、Transformers 加载 BERT 实战全解析
人工智能·深度学习