基于Spark计算网络图中节点之间的Jaccard相似性

基于Spark计算网络图中节点之间的Jaccard相似性

Jaccard 相似度是一种较为常用的衡量两个集合相似性的指标,用于计算两个集合的交集与并集的比率。具体来说,它的计算公式为:

在网络图中同样经常使用Jaccard来计算节点之间的相似性,对于图中的每个节点,收集其邻居节点作为一个集合,然后不同节点之间使用对应的集合计算节点之间的相似性。这种计算方式考虑的是节点的局部结构,即节点的直接邻居关系。如果两个节点具有较高的 Jaccard 相似度,意味着它们有较多的共同邻居,表明它们在图中的局部结构上非常相似。

Jaccard计算简单,易于理解和实现,在推荐系统(在社交网络或电商平台中,可以使用 Jaccard 相似度来推荐好友或商品。例如,在社交网络中,具有共同好友的用户可能更容易成为朋友。)或是社区发现(在网络图中,相似度较高的节点可能属于同一社区或群体。通过计算节点对之间的 Jaccard 相似度,可以辅助发现社区结构或群体。)等领域都有广泛应用。

文章目录


一、使用Jaccard相似性计算网络图中节点相似性的实现流程

  • 收集所有指向节点的邻居节点(in-degree)
  • 收集所有由节点指出的邻居节点(out-degree)
  • 拼接in-degree和out-degree,获取节点所有的邻居节点
  • 词袋模型编码,为每个节点生成一个特征集合,方便后续使用Spark自带的MinHashLSH方法加速节点相似度的计算
  • MinHash计算节点之间的相似度,得到最终计算结果

二、什么是MinHashLSH

什么是MinHashLSH

三、完整代码(基于Scala)

完整代码(基于Scala)


总结

相关推荐
桐果云1 天前
解锁桐果云零代码数据平台能力矩阵——赋能零售行业数字化转型新动能
大数据·人工智能·矩阵·数据挖掘·数据分析·零售
CHANG_THE_WORLD1 天前
并发编程指南 同步操作与强制排序
开发语言·c++·算法
智能化咨询1 天前
基于网络原理——HTTP/HTTPS的Web服务搭建与核心技术实践
网络·http·https
gaoshou451 天前
代码随想录训练营第三十一天|LeetCode56.合并区间、LeetCode738.单调递增的数字
数据结构·算法
自信的小螺丝钉1 天前
Leetcode 240. 搜索二维矩阵 II 矩阵 / 二分
算法·leetcode·矩阵
KING BOB!!!1 天前
Leetcode高频 SQL 50 题(基础版)题目记录
sql·mysql·算法·leetcode
我是渣哥1 天前
Java String vs StringBuilder vs StringBuffer:一个性能优化的探险故事
java·开发语言·jvm·后端·算法·职场和发展·性能优化
THMAIL1 天前
机器学习从入门到精通 - 机器学习调参终极手册:网格搜索、贝叶斯优化实战
人工智能·python·算法·机器学习·支持向量机·数据挖掘·逻辑回归
lytk991 天前
矩阵中寻找好子矩阵
线性代数·算法·矩阵
珊瑚怪人1 天前
算法随笔(一)
算法