使用Go语言实现基于泛型的Jaccard相似度算法

基本原理

跳表:

jaccard相似度:

jaccard相似度的代码实现:

时间复杂度分析:

快速jaccard算法:

代码实现,这个要求两个集合都是有序的:

Jaccard相似度算法的基本实现

算法:

go 复制代码
package zdpgo_algorithm

// Jaccard 计算两个数组之间的Jaccard相似度
// @param arr1 数组1
// @param arr2 数组2
// @return float64 相似度
func Jaccard[T Number](arr1 []T, arr2 []T) float64 {
	// 边界情况
	if len(arr1) == 0 || len(arr2) == 0 {
		return 0
	}

	// 将两个数组转换为字典
	m1 := make(map[T]struct{}, len(arr1))
	m2 := make(map[T]struct{}, len(arr2))
	for _, v := range arr1 {
		m1[v] = struct{}{}
	}
	for _, v := range arr2 {
		m2[v] = struct{}{}
	}

	// 计算交集的元素个数
	var count float64
	for k, _ := range m1 {
		if _, ok := m2[k]; ok {
			count++
		}
	}

	// 使用算法公式计算相似度
	// 交集个数 / (集合1个数 + 集合2个数 - 交集个数)
	// 由于结果是浮点数类型,需要手动将结果转换为浮点数类型
	return count / float64(len(arr1)+len(arr2)-int(count))
}

基本的测试代码:

go 复制代码
package zdpgo_algorithm_test

import (
	"github.com/zhangdapeng520/zdpgo_algorithm"
	"testing"
)

func TestJaccard_Basic(t *testing.T) {
	arr1 := []int{1, 2, 3, 4, 5}
	arr2 := []int{4, 5, 6, 7}
	t.Log(zdpgo_algorithm.Jaccard(arr1, arr2))
}

基于有序数组的Jaccard相似度算法实现

算法:

go 复制代码
// JaccardSorted 用于两个有序数组的快速Jaccard相似度算法
// 时间复杂度:O(n)
// @param arr1 数组1,要求是有序的
// @param arr2 数组2,要求是有序的
// @return float64 相似度
func JaccardSorted[T Number](arr1 []T, arr2 []T) float64 {
	if len(arr1) == 0 || len(arr2) == 0 {
		return 0
	}

	// 求交集的个数
	count := 0
	for i, j := 0, 0; i < len(arr1) && j < len(arr2); {
		// 两个有序的数组,只有其中的某个片段是连续相同的
		if arr1[i] == arr2[j] {
			// 这种情况说明重叠的部分已经出现了
			count++
			i++
			j++
		} else if arr1[i] < arr2[j] {
			// 这种情况说明重叠的部分在arr1的后面,让arr1的索引往后递增
			i++
		} else {
			// 这种情况说明重叠的部分在arr2的后面,让arr2的索引往后递增
			j++
		}
	}

	// 计算相似度
	return float64(count) / float64(len(arr1)+len(arr2)-count)
}

测试代码:

go 复制代码
func TestJaccardSorted_Basic(t *testing.T) {
	arr1 := []int{1, 2, 3, 4, 5}
	arr2 := []int{4, 5, 6, 7}
	t.Log(zdpgo_algorithm.JaccardSorted(arr1, arr2))
}
相关推荐
Dick5077 小时前
ROS2 常用命令表
人工智能·学习·算法·机器人
qq3621967057 小时前
阿里裁员新消息(2026最新动态汇总)
java·开发语言·前端
JCGKS7 小时前
Go `init` 函数:包初始化顺序到底是怎样的
golang·init·init执行顺序
.千余7 小时前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
代码改善世界7 小时前
【C++进阶】C++11:列表初始化、右值引用与移动语义、完美转发全解析
java·开发语言·c++
scx_link7 小时前
通过git bash在本地创建分支,并推送到远程仓库中
开发语言·git·bash
GZ同学7 小时前
单双变量Ripley’s K函数 R 语言实现
开发语言·r语言
Channing Lewis7 小时前
PHP 解析 Excel 的那些坑:一次“行号错位”引发的数据丢失
开发语言·php·excel
apcipot_rain7 小时前
计科八股20260616(2)/面经——线性代数对称阵求n次幂、概率论最大似然估计
算法
小小龙学IT7 小时前
Apache Airflow 2.x 深度指南:用 Python 编排一切的现代化工作流引擎
开发语言·python·apache