第十八章 番外 余弦相似度

余弦相似度(Cosine Similarity)是一种衡量两个非零向量之间角度的度量方式,用于评估它们之间的相似性。它的值范围从 -1 到 1,其中 1 表示完全相同的方向(即向量完全相同),0 表示正交(没有相似性),而 -1 表示完全相反的方向。

假设我们有两个向量 A 和 B,它们的余弦相似度可以通过以下公式计算:

\\text{similarity} = \\cos(\\theta) = \\frac{\\mathbf{A} \\cdot \\mathbf{B}}{\|\\mathbf{A}\| \|\\mathbf{B}\|}

其中:

  • \\mathbf{A} \\cdot \\mathbf{B} 是向量 A 和 B 的点积(内积)。
  • \|\\mathbf{A}\| 和 和 和 \|\\mathbf{B}\| 分别是向量 A 和 B 的模长(长度)。

具体来说:

  • 点积(内积) \\mathbf{A} \\cdot \\mathbf{B} = \\sum_{i=1}\^{n} A_i B_i ,其中 (n) 是向量的维度。
  • 模长(长度) \|\\mathbf{A}\| = \\sqrt{\\sum_{i=1}{n} A_i\^2}

公式可以进一步展开为:

\\text{similarity} = \\frac{\\sum\\limits_{i=1}\^{n} A_i B_i}{\\sqrt{\\sum\\limits_{i=1}\^{n} A_i\^2} \\sqrt{\\sum\\limits_{i=1}\^{n} B_i\^2}}

示例计算

假设我们有两个向量 A 和 B,其中:

  • \\mathbf{A} = \[1, 2, 3\]
  • \\mathbf{B} = \[4, 5, 6\]

我们可以按照上述公式计算它们之间的余弦相似度:

  1. 点积
    \\mathbf{A} \\cdot \\mathbf{B} = 14 + 25 + 3\*6 = 4 + 10 + 18 = 32
  2. 模长
    • \|\\mathbf{A}\| = \\sqrt{12 + 22 + 3\^2} = \\sqrt{1 + 4 + 9} = \\sqrt{14}
    • \|\\mathbf{B}\| = \\sqrt{42 + 52 + 6\^2} = \\sqrt{16 + 25 + 36} = \\sqrt{77}
  3. 余弦相似度
    \\text{similarity} = \\frac{32}{\\sqrt{14} \\sqrt{77}} = \\frac{32}{\\sqrt{1078}}

我们可以使用 Python 来计算这个值:

python 复制代码
import numpy as np

# 定义两个向量
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])

# 计算点积
dot_product = np.dot(vector_a, vector_b)

# 计算模长
norm_a = np.linalg.norm(vector_a)
norm_b = np.linalg.norm(vector_b)

# 计算余弦相似度
cosine_similarity = dot_product / (norm_a * norm_b)

print("Cosine similarity:", cosine_similarity)
相关推荐
段一凡-华北理工大学31 分钟前
工业领域的Hadoop架构学习~系列文章15:机器学习与大数据融合 - 工业智能的算法引擎
大数据·人工智能·hadoop·机器学习·架构·工业智能体·高炉炼铁智能化
一楼的猫34 分钟前
AI辅助长篇小说创作的“记忆崩坏“问题与结构管理策略
人工智能·学习·机器学习·chatgpt·ai作画·ai写作
好评笔记1 小时前
深度学习面试八股——循环神经网络RNN
人工智能·rnn·深度学习·神经网络·算法·机器学习·aigc
装不满的克莱因瓶1 小时前
深度学习优化:使用深层神经网络来解决复杂任务
人工智能·python·深度学习·神经网络·机器学习·ai
luweis1 小时前
企智孪生 ETA (6.3 数字人格 (Digital Persona) 的构建工程、6.4 交互触点:全场景嵌入策略)【杭州联保致新科技有限公司 卢伟舜】
人工智能·程序人生·机器学习·自然语言处理·职场和发展·知识图谱·学习方法
数智工坊2 小时前
周志华《Machine Learning》学习笔记--第八章--集成学习
笔记·学习·机器学习
AI科技星2 小时前
引电统一方程:严格推导与量纲零错误验证
人工智能·算法·机器学习·架构·学习方法
计算机安禾3 小时前
【算法分析与设计】第49篇:算法博弈论与机制设计
人工智能·算法·机器学习
zyl837213 小时前
Python 线性代数:矩阵与向量
开发语言·python·机器学习
Alluxio3 小时前
造父智能(哈啰robotaxi)在阿里云环境下构建极致透明的训练加速层
人工智能·机器学习·缓存·系统架构·自动驾驶·模型训练