相似度计算——余弦相似度

余弦相似度介绍

余弦相似度是利用两个向量之间的夹角的余弦值来衡量两个向量之间的相似度,这个值的范围在-1到1之间。

余弦相似度越接近1,表示两个向量之间的夹角越小,即越相似;而越接近-1,表示两个向量之间的夹角越大,即越不相似。

两个向量的夹角示例图如下:

余弦相似度的计算公式

向量的余弦相似度计算公式

a,b为两个向量,余弦距离计算公式为:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> cos ⁡ θ = a ⃗ ⋅ b ⃗ ∣ a ⃗ ∣ ⋅ ∣ b ⃗ ∣ \cos \theta = \frac{\vec{a} \cdot \vec{b} }{\left | \vec{a} \right | \cdot \left | \vec{b} \right |} </math>cosθ=∣a ∣⋅∣ ∣b ∣ ∣a ⋅b

  • 分子为向量a与向量b的内积,分母为向量a的模乘以向量b的模。
  • 向量模(即向量的长度)计算方法如下:

<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> x ⃗ = ( x 1 , x 2 , . . . x n ) \vec{x}=(x_1,x_2,...x_n) </math>x =(x1,x2,...xn)
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> ∣ x ⃗ ∣ = x 1 2 + x 2 2 + . . . + x n 2 \left | \vec{x} \right |=\sqrt{x_1^2+x_2^2+...+x_n^2} </math>∣x ∣=x12+x22+...+xn2

n维向量的余弦相似度计算

在 <math xmlns="http://www.w3.org/1998/Math/MathML"> n n </math>n维空间中,对于向量 <math xmlns="http://www.w3.org/1998/Math/MathML"> A = ( a 1 , a 2 , . . . , a n ) A=(a_1,a_2,...,a_n) </math>A=(a1,a2,...,an), <math xmlns="http://www.w3.org/1998/Math/MathML"> B = ( b 1 , b 2 , . . . , b n ) B=(b_1,b_2,...,b_n) </math>B=(b1,b2,...,bn),计算其余弦值的公式为:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> cos ⁡ θ = ∑ 1 n ( a i ⋅ b i ) ∑ 1 n a i 2 ⋅ ∑ 1 n b i 2 \cos \theta = \frac{\sum_{1}^{n}(a_i\cdot b_i) }{\sqrt{\sum_{1}^{n}a_i^2}\cdot \sqrt{\sum_{1}^{n}b_i^2}} </math>cosθ=∑1nai2 ⋅∑1nbi2 ∑1n(ai⋅bi)

余弦相似度的取值范围为[-1,1],越接近于1表示相似度越高。

余弦相似度计算的示例代码

用Python实现余弦相似度计算时,我们可以使用NumPy库来计算余弦相似度,示例代码如下:

python 复制代码
import numpy as np

def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    cosine_sim = dot_product / (norm_A * norm_B)
    return cosine_sim

vector1 = np.array([1, 2, 3])
vector2 = np.array([4, 5, 6])
similarity = cosine_similarity(vector1, vector2)
print("余弦相似度:", similarity)
  • 补充解释:linalg.norm()是NumPy库中用于计算向量或矩阵的范数(或长度)的函数。在计算欧式距离时,可以用来计算向量之间的差异。如下实例代码计算单个向量的范数:
python 复制代码
import numpy as np

# 计算向量的范数
x = np.array([1, 2, 3])
norm_x = np.linalg.norm(x)
print(norm_x)

余弦相似度的应用

余弦相似度在相似度计算中被广泛应用在文本相似度、推荐系统、图像处理等领域。

  • 如在文本相似度计算中,可以使用余弦相似度来比较两个文档的向量表示,从而判断它们的相似程度。
  • 又如在推荐系统中,可以利用余弦相似度来计算用户对不同商品的喜好程度,进而进行商品推荐。
  • 在图像处理中,可以将图像表示为特征向量,并利用计算余弦相似度来比较图像之间的相似程度。

应用实例说明

假设我们有两篇文章A和文章B,单看整篇文章我们感觉无从下手。

那么我们从拆分的思路去想,就可以将文章拆分成词组,用这些词组组成词频向量,如此我们就可以利用余弦相似度来计算词频向量之间的相似度。

  • 如果两篇文章的余弦相似度接近1,那么它们在内容上是相似的;
  • 如果余弦相似度接近0,则它们在内容上是不相似的。

这样的相似度计算方法可以在信息检索、自然语言处理等领域得到广泛应用。

相关推荐
招风的黑耳1 小时前
我用SpringBoot撸了一个智慧水务监控平台
java·spring boot·后端
Miss_Chenzr1 小时前
Springboot优卖电商系统s7zmj(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库·spring boot·后端
期待のcode1 小时前
Springboot核心构建插件
java·spring boot·后端
2501_921649491 小时前
如何获取美股实时行情:Python 量化交易指南
开发语言·后端·python·websocket·金融
im_AMBER2 小时前
Leetcode 78 识别数组中的最大异常值 | 镜像对之间最小绝对距离
笔记·学习·算法·leetcode
serendipity_hky2 小时前
【SpringCloud | 第5篇】Seata分布式事务
分布式·后端·spring·spring cloud·seata·openfeign
鼾声鼾语2 小时前
matlab的ros2发布的消息,局域网内其他设备收不到情况吗?但是matlab可以订阅其他局域网的ros2发布的消息(问题总结)
开发语言·人工智能·深度学习·算法·matlab·isaaclab
五阿哥永琪2 小时前
Spring Boot 中自定义线程池的正确使用姿势:定义、注入与最佳实践
spring boot·后端·python
LYFlied2 小时前
【每日算法】LeetCode 25. K 个一组翻转链表
算法·leetcode·链表
Swizard2 小时前
别再迷信“准确率”了!一文读懂 AI 图像分割的黄金标尺 —— Dice 系数
python·算法·训练