第十八章 番外 余弦相似度

余弦相似度(Cosine Similarity)是一种衡量两个非零向量之间角度的度量方式,用于评估它们之间的相似性。它的值范围从 -1 到 1,其中 1 表示完全相同的方向(即向量完全相同),0 表示正交(没有相似性),而 -1 表示完全相反的方向。

假设我们有两个向量 A 和 B,它们的余弦相似度可以通过以下公式计算:

$ \text{similarity} = \cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|} $

其中:

  • $ \mathbf{A} \cdot \mathbf{B} $ 是向量 A 和 B 的点积(内积)。
  • $ |\mathbf{A}| 和 和 和 |\mathbf{B}| $ 分别是向量 A 和 B 的模长(长度)。

具体来说:

  • 点积(内积):$ \mathbf{A} \cdot \mathbf{B} = \sum_{i=1}^{n} A_i B_i $,其中 (n) 是向量的维度。
  • 模长(长度):$ |\mathbf{A}| = \sqrt{\sum_{i=1}{n} A_i^2} $。

公式可以进一步展开为:

$ \text{similarity} = \frac{\sum\limits_{i=1}^{n} A_i B_i}{\sqrt{\sum\limits_{i=1}^{n} A_i^2} \sqrt{\sum\limits_{i=1}^{n} B_i^2}} $

示例计算

假设我们有两个向量 A 和 B,其中:

  • $ \mathbf{A} = [1, 2, 3] $
  • $ \mathbf{B} = [4, 5, 6] $

我们可以按照上述公式计算它们之间的余弦相似度:

  1. 点积
    $ \mathbf{A} \cdot \mathbf{B} = 14 + 25 + 3*6 = 4 + 10 + 18 = 32 $
  2. 模长
    • $ |\mathbf{A}| = \sqrt{12 + 22 + 3^2} = \sqrt{1 + 4 + 9} = \sqrt{14} $
    • $ |\mathbf{B}| = \sqrt{42 + 52 + 6^2} = \sqrt{16 + 25 + 36} = \sqrt{77} $
  3. 余弦相似度
    $ \text{similarity} = \frac{32}{\sqrt{14} \sqrt{77}} = \frac{32}{\sqrt{1078}} $

我们可以使用 Python 来计算这个值:

python 复制代码
import numpy as np

# 定义两个向量
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])

# 计算点积
dot_product = np.dot(vector_a, vector_b)

# 计算模长
norm_a = np.linalg.norm(vector_a)
norm_b = np.linalg.norm(vector_b)

# 计算余弦相似度
cosine_similarity = dot_product / (norm_a * norm_b)

print("Cosine similarity:", cosine_similarity)
相关推荐
带娃的IT创业者1 小时前
机器学习实战(8):降维技术——主成分分析(PCA)
人工智能·机器学习·分类·聚类
饮长安千年月2 小时前
Linksys WRT54G路由器溢出漏洞分析–运行环境修复
网络·物联网·学习·安全·机器学习
flying robot3 小时前
人工智能基础之数学基础:01高等数学基础
人工智能·机器学习
Moutai码农4 小时前
机器学习-生命周期
人工智能·python·机器学习·数据挖掘
Jackilina_Stone4 小时前
【DL】浅谈深度学习中的知识蒸馏 | 输出层知识蒸馏
人工智能·深度学习·机器学习·蒸馏
studyer_domi7 小时前
matlab欠驱动船舶模型预测控制
人工智能·机器学习·matlab
深蓝学院7 小时前
LLM增强的RLHF框架,用多模态人类反馈提升自动驾驶安全性!
人工智能·机器学习·自动驾驶
North_D9 小时前
ML.NET库学习008:使用ML.NET进行心脏疾病预测模型开发
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·数据挖掘
望云山19011 小时前
第二章:16.5 决策树处理连续值特征
算法·决策树·机器学习
CoderIsArt11 小时前
机器学习(1)安装Pytorch
人工智能·pytorch·机器学习