【NLP基础知识】有哪些相似度计算方式(持续更新)

相异性/相似性的计算-zine

相似度计算方式

1. Euclidean Distance (L2)

用途:主要用于计算机视觉领域。

解释 :计算两个点之间的直线距离。假设有两个向量 a = [ a 1 , a 2 , . . . , a n ] \mathbf{a} = [a_1, a_2, ..., a_n] a=[a1,a2,...,an] 和 b = [ b 1 , b 2 , . . . , b n ] \mathbf{b} = [b_1, b_2, ..., b_n] b=[b1,b2,...,bn],它们之间的欧几里得距离计算如下:
L2 ( a , b ) = ∑ i = 1 n ( a i − b i ) 2 \text{L2}(\mathbf{a}, \mathbf{b}) = \sqrt{\sum_{i=1}^{n} (a_i - b_i)^2} L2(a,b)=i=1∑n(ai−bi)2

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6]
  • 欧几里得距离

L2 ( a , b ) = ( 1 − 4 ) 2 + ( 2 − 5 ) 2 + ( 3 − 6 ) 2 = 27 ≈ 5.20 \text{L2}(\mathbf{a}, \mathbf{b}) = \sqrt{(1-4)^2 + (2-5)^2 + (3-6)^2} = \sqrt{27} \approx 5.20 L2(a,b)=(1−4)2+(2−5)2+(3−6)2 =27 ≈5.20

2. Inner Product (IP)

用途:主要用于自然语言处理领域。

解释 :计算两个向量的点积。假设有两个向量 a = [ a 1 , a 2 , . . . , a n ] \mathbf{a} = [a_1, a_2, ..., a_n] a=[a1,a2,...,an] 和 b = [ b 1 , b 2 , . . . , b n ] \mathbf{b} = [b_1, b_2, ..., b_n] b=[b1,b2,...,bn],它们之间的内积计算如下:
IP ( a , b ) = ∑ i = 1 n a i b i \text{IP}(\mathbf{a}, \mathbf{b}) = \sum_{i=1}^{n} a_i b_i IP(a,b)=i=1∑naibi

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6]
  • 点积

IP ( a , b ) = 1 ⋅ 4 + 2 ⋅ 5 + 3 ⋅ 6 = 32 \text{IP}(\mathbf{a}, \mathbf{b}) = 1 \cdot 4 + 2 \cdot 5 + 3 \cdot 6 = 32 IP(a,b)=1⋅4+2⋅5+3⋅6=32

3. Hamming Distance

汉明距离: 两个相同长度字符串进行异或运算,结果为1的个数就是汉明距离

用途:主要用于自然语言处理领域中的二进制嵌入。

解释 :计算两个相同长度的二进制字符串之间不同位置的个数。假设有两个二进制向量 a = [ a 1 , a 2 , . . . , a n ] \mathbf{a} = [a_1, a_2, ..., a_n] a=[a1,a2,...,an] 和 b = [ b 1 , b 2 , . . . , b n ] \mathbf{b} = [b_1, b_2, ..., b_n] b=[b1,b2,...,bn],汉明距离计算如下:
Hamming ( a , b ) = ∑ i = 1 n 1 ( a i ≠ b i ) \text{Hamming}(\mathbf{a}, \mathbf{b}) = \sum_{i=1}^{n} \mathbf{1}(a_i \neq b_i) Hamming(a,b)=i=1∑n1(ai=bi)

举例

  • 向量 a = [ 0 , 1 , 1 , 0 ] \mathbf{a} = [0, 1, 1, 0] a=[0,1,1,0] 和 b = [ 1 , 1 , 0 , 0 ] \mathbf{b} = [1, 1, 0, 0] b=[1,1,0,0]
  • 汉明距离

Hamming ( a , b ) = 2 \text{Hamming}(\mathbf{a}, \mathbf{b}) = 2 Hamming(a,b)=2

4. Jaccard Index

jaccard相似性 = 集合交集/集合并集

jaccard距离 = 1-jaccard相似性

用途:主要用于分子相似度搜索。

解释 :计算两个集合的交集大小与并集大小的比值。假设有两个集合 A A A 和 B B B,它们的Jaccard指数计算如下:
Jaccard ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ \text{Jaccard}(A, B) = \frac{|A \cap B|}{|A \cup B|} Jaccard(A,B)=∣A∪B∣∣A∩B∣

举例

  • 集合 A = { 1 , 2 , 3 } A = \{1, 2, 3\} A={1,2,3} 和集合 B = { 2 , 3 , 4 } B = \{2, 3, 4\} B={2,3,4}
  • Jaccard指数

Jaccard ( A , B ) = 2 4 = 0.5 \text{Jaccard}(A, B) = \frac{2}{4} = 0.5 Jaccard(A,B)=42=0.5

5. Tanimoto Coefficient

用途:主要用于分子相似度搜索。

解释 :类似于Jaccard指数,但通常用于浮点数或连续值的集合。假设有两个向量 a \mathbf{a} a 和 b \mathbf{b} b,Tanimoto系数计算如下:
Tanimoto ( a , b ) = a ⋅ b ∣ a ∣ 2 + ∣ b ∣ 2 − a ⋅ b \text{Tanimoto}(\mathbf{a}, \mathbf{b}) = \frac{\mathbf{a} \cdot \mathbf{b}}{|\mathbf{a}|^2 + |\mathbf{b}|^2 - \mathbf{a} \cdot \mathbf{b}} Tanimoto(a,b)=∣a∣2+∣b∣2−a⋅ba⋅b

举例

  • 向量 a = [ 1 , 1 , 0 ] \mathbf{a} = [1, 1, 0] a=[1,1,0] 和 b = [ 0 , 1 , 1 ] \mathbf{b} = [0, 1, 1] b=[0,1,1]
  • Tanimoto系数

Tanimoto ( a , b ) = 1 3 ≈ 0.33 \text{Tanimoto}(\mathbf{a}, \mathbf{b}) = \frac{1}{3} \approx 0.33 Tanimoto(a,b)=31≈0.33

6. Superstructure and Substructure

用途:主要用于搜索分子的超结构和子结构相似性。

解释:这些指标用于化学信息学,计算一个分子是否是另一个分子的超结构或子结构。具体算法因实现而异,通常涉及子图匹配技术。

举例

  • 分子 A A A 有结构 C 6 H 6 \text{C}_6\text{H}_6 C6H6(苯环),分子 B B B 有结构 C 6 H 5 OH \text{C}_6\text{H}_5\text{OH} C6H5OH(苯酚)。
  • 分子 A A A 是分子 B B B 的子结构,因为苯环是苯酚的一个部分。
  • 分子 B B B 是分子 A A A 的超结构,因为苯酚包含了苯环并增加了一个羟基(OH)。

7. Cosine Similarity

用途:主要用于自然语言处理和信息检索。

解释 :计算两个向量之间的余弦角度的相似度。假设有两个向量 a \mathbf{a} a 和 b \mathbf{b} b,余弦相似度计算如下:
Cosine ( a , b ) = a ⋅ b ∣ ∣ a ∣ ∣ ⋅ ∣ ∣ b ∣ ∣ \text{Cosine}(\mathbf{a}, \mathbf{b}) = \frac{\mathbf{a} \cdot \mathbf{b}}{||\mathbf{a}|| \cdot ||\mathbf{b}||} Cosine(a,b)=∣∣a∣∣⋅∣∣b∣∣a⋅b

余弦相似性
c o s θ = a ⋅ b ∣ ∣ a ∣ ∣ ∣ ∣ b ∣ ∣ = ∑ i = 1 n a i b i ∑ i = 1 n a i 2 ∑ i = 1 n b i 2 cos\theta =\frac{a\cdot b}{||a|| ||b||} = \frac {\sum_{i=1}^n{a_i} {b_i}} {\sqrt{\sum_{i=1}^n a_i^2} \sqrt{\sum_{i=1}^n b_i^2}} cosθ=∣∣a∣∣∣∣b∣∣a⋅b=∑i=1nai2 ∑i=1nbi2 ∑i=1naibi

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6]
  • 余弦相似度

Cosine ( a , b ) ≈ 0.97 \text{Cosine}(\mathbf{a}, \mathbf{b}) \approx 0.97 Cosine(a,b)≈0.97

8. Manhattan Distance (L1)

曼哈顿距离: 又叫街区距离,类似汉明距离,区别是曼哈顿距离计算两个字符串的每个位置上对应字符之间的差值,而不是计算不陪配字符的数量。

用途:广泛用于各种数据分析和机器学习任务。

解释 :计算两个点在所有坐标轴上的绝对差值之和。假设有两个向量 a = [ a 1 , a 2 , . . . , a n ] \mathbf{a} = [a_1, a_2, ..., a_n] a=[a1,a2,...,an] 和 b = [ b 1 , b 2 , . . . , b n ] \mathbf{b} = [b_1, b_2, ..., b_n] b=[b1,b2,...,bn],曼哈顿距离计算如下:
L1 ( a , b ) = ∑ i = 1 n ∣ a i − b i ∣ \text{L1}(\mathbf{a}, \mathbf{b}) = \sum_{i=1}^{n} |a_i - b_i| L1(a,b)=i=1∑n∣ai−bi∣

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6]
  • 曼哈顿距离

L1 ( a , b ) = 9 \text{L1}(\mathbf{a}, \mathbf{b}) = 9 L1(a,b)=9

9. Pearson Correlation Coefficient

用途:用于统计分析和机器学习中的相关性测量。

解释 :衡量两个变量之间的线性相关性,取值范围为-1到1。假设有两个向量 a \mathbf{a} a 和 b \mathbf{b} b,皮尔逊相关系数计算如下:
Pearson ( a , b ) = ∑ i = 1 n ( a i − a ˉ ) ( b i − b ˉ ) ∑ i = 1 n ( a i − a ˉ ) 2 ∑ i = 1 n ( b i − b ˉ ) 2 \text{Pearson}(\mathbf{a}, \mathbf{b}) = \frac{\sum_{i=1}^{n} (a_i - \bar{a})(b_i - \bar{b})}{\sqrt{\sum_{i=1}^{n} (a_i - \bar{a})^2} \sqrt{\sum_{i=1}^{n} (b_i - \bar{b})^2}} Pearson(a,b)=∑i=1n(ai−aˉ)2 ∑i=1n(bi−bˉ)2 ∑i=1n(ai−aˉ)(bi−bˉ)

其中 a ˉ \bar{a} aˉ 和 b ˉ \bar{b} bˉ 分别是 a \mathbf{a} a 和 b \mathbf{b} b 的均值。

补充公式:

p e a r s o n r = c o v ( x , y ) σ ( x ) σ ( y ) = ∑ i = 1 n ( x − x ˉ ) ( y − y ˉ ) ∑ i = 1 n ( x − x ˉ ) 2 ∑ i = 1 n ( y − y ˉ ) 2 pearson_r =\frac{cov(x,y)}{\sigma{(x)}\sigma{(y)}} =\frac {\sum_{i=1}^n(x-\bar{x})(y-\bar{y})} {\sqrt{\sum_{i=1}^n (x-\bar{x})^2} \sqrt{\sum_{i=1}^n (y-\bar{y})^2}} pearsonr=σ(x)σ(y)cov(x,y)=∑i=1n(x−xˉ)2 ∑i=1n(y−yˉ)2 ∑i=1n(x−xˉ)(y−yˉ)

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6]
  • 均值 a ˉ = 2 \bar{a} = 2 aˉ=2,均值 b ˉ = 5 \bar{b} = 5 bˉ=5
  • 皮尔逊相关系数

Pearson ( a , b ) = 1 \text{Pearson}(\mathbf{a}, \mathbf{b}) = 1 Pearson(a,b)=1

10.Spearman's Rank Correlation

用途:用于统计分析中的秩相关性测量。

解释 :衡量两个变量的秩相关性,适用于非线性相关的情况。假设有两个向量 a \mathbf{a} a 和 b \mathbf{b} b,计算如下:
Spearman ( a , b ) = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \text{Spearman}(\mathbf{a}, \mathbf{b}) = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} Spearman(a,b)=1−n(n2−1)6∑di2

其中 d i d_i di 是每对数据的秩差, n n n 是数据对的数量。

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6] 的秩相同,所以 Spearman 相关系数为 1。

11. Edit Distance (Levenshtein Distance)

又叫莱文斯坦距离,是编辑距离的一种

用途:主要用于字符串相似性计算。

解释:计算将一个字符串变为另一个字符串所需的最少编辑操作(插入、删除、替换)的数量。

公式:
r = ( s u m − l d i s t ) s u m r=\frac{(sum - ldist)}{sum} r=sum(sum−ldist)

ldist是类编辑距离,删除、插入+1,但是替换+2

举例

  • 字符串 a = "kitten" 和 b = "sitting"
  • 编辑距离 = 3(kitten → sitten → sittin → sitting)

12. Bray-Curtis Dissimilarity

用途:用于生态学和其他领域中的样本比较。

解释 :衡量两个样本之间的差异,计算如下:
Bray-Curtis ( a , b ) = ∑ ∣ a i − b i ∣ ∑ ( a i + b i ) \text{Bray-Curtis}(\mathbf{a}, \mathbf{b}) = \frac{\sum |a_i - b_i|}{\sum (a_i + b_i)} Bray-Curtis(a,b)=∑(ai+bi)∑∣ai−bi∣

举例

  • 向量 a = [ 1 , 2 , 3 ] \mathbf{a} = [1, 2, 3] a=[1,2,3] 和 b = [ 4 , 5 , 6 ] \mathbf{b} = [4, 5, 6] b=[4,5,6]
  • Bray-Curtis 不相似度

Bray-Curtis ( a , b ) = ∣ 1 − 4 ∣ + ∣ 2 − 5 ∣ + ∣ 3 − 6 ∣ 1 + 4 + 2 + 5 + 3 + 6 = 3 + 3 + 3 21 = 0.43 \text{Bray-Curtis}(\mathbf{a}, \mathbf{b}) = \frac{|1-4| + |2-5| + |3-6|}{1+4 + 2+5 + 3+6} = \frac{3 + 3 + 3}{21} = 0.43 Bray-Curtis(a,b)=1+4+2+5+3+6∣1−4∣+∣2−5∣+∣3−6∣=213+3+3=0.43

应用:

  • DNA分析
  • 拼字检查
  • 语音辩识
  • 抄袭侦测

概念

范数

  • L1范数就是曼哈顿距离
  • L2范数也称为欧式距离

闵氏距离

(欧几里得距离 曼哈顿距离 切比雪夫距离)
p ( A , B ) = ( ∑ i = 1 n ∣ a i − b i ∣ P ) 1 p p(A,B)=(\sum_{i=1}^n |a_i-b_i|^P)^{\frac{1}{p}} p(A,B)=(i=1∑n∣ai−bi∣P)p1

p=1时为曼哈顿距离

p=2时为欧几里得距离
p → + ∞ p\to +\infty p→+∞切比雪夫距离

欧氏距离VS.余弦距离

欧氏距离与余弦距离的差异-CSDN

欧氏距离是超球面上的直线距离,余弦距离是超球面上的球面距离

欧式距离

  • 数值受到维度的影响
  • 体现的是距离上的绝对差异(注重数值)
  • 在[0,无穷)之间,无判别准则
  • 复杂度 O ( l o g ) O(log) O(log)
  • 对于高维稀疏向量,距离值往往很大,无法很好反映相似度

余弦相似度

  • 在高维的情况下也依然保持低维完全相同时相似度为1等性质
  • 体现的是方向上的相对差异(注重维度,相对差异)
  • 在[0,1]之间,有准则
  • 复杂度 O ( n 2 ) O(n^2) O(n2)
  • 仅考虑词语之间的方向,而不受向量模长影响,能更好反映语义相似度

调整后(调整余弦相似度)

余弦相似度对数值的不敏感 导致了结果的误差,需要修正这种不合理性就出现了调整余弦相似度 ,即所有维度上的数值都减去一个均值

X和Y两个用户对两个内容的评分分别为(1,2)和(4,5)那么调整后为(-2,-1)和(1,2)

余弦相似度 vs 相关系数

皮尔逊系数就是cos计算之前两个向量都先进行中心化(centered)

中心化的意思是说, 对每个向量, 我先计算所有元素的平均值avg, 然后向量中每个维度的值都减去这个avg

观察皮尔逊系数的公式:分子部分:

  • 每个向量的每个数字要先减掉向量各个数字的平均值, 这就是在中心化.
  • 分母部分: 两个根号式子就是在做取模运算, 里面的所有的 r 也要减掉平均值, 其实也就是在做中心化.
相关推荐
阿里云大数据AI技术8 分钟前
云栖实录 | 从多模态数据到 Physical AI,PAI 助力客户快速启动 Physical AI 实践
人工智能
小关会打代码15 分钟前
计算机视觉进阶教学之颜色识别
人工智能·计算机视觉
IT小哥哥呀21 分钟前
基于深度学习的数字图像分类实验与分析
人工智能·深度学习·分类
机器之心1 小时前
VAE时代终结?谢赛宁团队「RAE」登场,表征自编码器或成DiT训练新基石
人工智能·openai
机器之心1 小时前
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
人工智能·openai
大模型真好玩1 小时前
低代码Agent开发框架使用指南(四)—Coze大模型和插件参数配置最佳实践
人工智能·agent·coze
jerryinwuhan1 小时前
基于大语言模型(LLM)的城市时间、空间与情感交织分析:面向智能城市的情感动态预测与空间优化
人工智能·语言模型·自然语言处理
落雪财神意1 小时前
股指10月想法
大数据·人工智能·金融·区块链·期股
中杯可乐多加冰1 小时前
无代码开发实践|基于业务流能力快速开发市场监管系统,实现投诉处理快速响应
人工智能·低代码
郭庆汝1 小时前
自然语言处理笔记
笔记·自然语言处理·easyui