代码杂谈 之 pyspark如何做相似度计算

在 PySpark 中,计算 DataFrame 两列向量的差可以通过使用 UDF(用户自定义函数)和 Vector 类型完成。这里有一个示例,展示了如何使用 PySpark 的

  • pyspark.ml.linalg.Vectors
  • pyspark.sql.functions.udf

来实现这一功能:

首先,确保你已经安装了 PySpark 并且正确设置了 SparkSession。接下来,你可以按照以下步骤操作:

  1. 导入必要的模块。
  2. 创建一个简单的 DataFrame 示例,其中包含两列向量。
  3. 定义一个计算向量差的函数。
  4. 将此函数转换为 UDF。
  5. 使用 UDF 在 DataFrame 上添加一列来存储向量差。
python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from pyspark.sql.types import ArrayType, FloatType
from pyspark.ml.linalg import Vectors

# 创建 SparkSession
spark = SparkSession.builder \
    .appName("Vector Difference in PySpark") \
    .getOrCreate()

# 创建示例 DataFrame
data = [(Vectors.dense([1.0, 2.0]), Vectors.dense([4.0, 6.0])),
        (Vectors.dense([2.0, 3.0]), Vectors.dense([5.0, 7.0]))]
df = spark.createDataFrame(data, ["vectorA", "vectorB"])

# 定义计算向量差的函数(余弦距离/欧几里得距离)
def cos_sim(a,b):
    return float(np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)))

def euclidean_distance(v1, v2):
    return float(np.linalg.norm(np.array(v1) - np.array(v2)))

cos_sim_udf = F.udf(cos_sim,FloatType())

# 在 DataFrame 上使用 UDF 添加新列
tmp_df = tmp_df.withColumn("cos_sim", cos_sim_udf('vectorA','vectorB'))
# 打印结果
df.show()
相关推荐
Dovis(誓平步青云)1 分钟前
探索C++标准模板库(STL):从容器到底层奥秘-全面解析String类高效技巧(上篇)
开发语言·c++·stl·string
wheeldown3 分钟前
【C++】STL详解(四)---Stack和Queue
开发语言·c++
我想睡觉26117 分钟前
Python打卡训练营Day40
开发语言·人工智能·python·深度学习·机器学习
比特森林探险记31 分钟前
Go语言结构体:数据组织的艺术
开发语言·后端·golang
橙色小博33 分钟前
Python中openpyxl库的基础解析与代码实例
前端·python·excel·openpyxl
小叶爱吃鱼39 分钟前
web自动化-Selenium、Playwright、Robot Framework等自动化框架使用场景优劣对比
python·selenium·自动化
元直数字电路验证2 小时前
[DS]使用 Python 库中自带的数据集来实现上述 50 个数据分析和数据可视化程序的示例代码
python·信息可视化·数据分析
AI糊涂是福2 小时前
MATLAB语言教程:从入门到精通的全面指南
开发语言·matlab·信息可视化
jz_ddk3 小时前
[学习] C语言多维指针探讨(代码示例)
linux·c语言·开发语言·学习·算法
He_k5 小时前
‘js@https://registry.npmmirror.com/JS/-/JS-0.1.0.tgz‘ is not in this registry
开发语言·javascript·ecmascript