KMP算法

1. 先讲一下搜索过程

假设我们已经生成了 next 数组,

python 复制代码
def kmp_search(string, patt):
	next = build_next(patt) # 假设我们已经算出了next数组
	i = 0  # 主串中的指针
	j = 0  # 子串中的指针
	while i < len(string):
		if string[i] == patt[j]:  # 字符匹配,指针后移
			i += 1
			j += 1
		elif j > 0:  # 字符失配,根据next跳过字串前面的一些字符, next[j-1]是几字串的指针就跳过几个
			j = next[j-1]
		else:  # 子串第一个字符就失配
			i += 1
		
		if j == len(patt):  # 匹配成功
			return i - j



2. next数组的生成

next 数值代表了在匹配失败的时候子串中可以跳过的字符个数,如果是2就代表我们可以跳过前两个字符的比较,但凭什么可以这么做呢?

如图因为我们之前匹配的最后那两个 AB 和这里跳过的最前面的这两个 AB 是一样的,即两个黄线上的 AB 是一样的。

换句话说对于字串的前四个字符,他们拥有相同的前缀和后缀,长度为2

python 复制代码
"A"的前缀为空,后缀也为空,所以相同前后缀的最长长度为0

"AB"的前缀:A
"AB"的后缀:B
相同前后缀的最长长度为0

"ABA"的前缀:A, AB
"ABA"的后缀:A, BA

"ABAB"的前缀:A, AB, ABA
"ABAB"的后缀:B, AB, BAB
相同前后缀的最长长度为2

"ABABC"的前缀:A, AB, ABA, ABAB
"ABABC"的后缀:C, BC, ABC, BABC
相同前后缀的最长长度为0

(前后缀不包含字符串本身)

next 数组的本质就是寻找子串中相同前后缀的长度

递推求解 next 数组:

这个方法的巧妙之处在于会不断利用已经掌握的信息来避免重复的运算。如下图,假设我们已经知道当前的最长共同前后缀为2

接下来分两种情况讨论:

  • 如果下一个字符相同的话就可以直接构成一个更长的前后缀,它的长度等于之前的加上1
  • 如果下一个字符不同我们就要看看其中存不存在更短的

比如这里的A,它有可能跟下一个字符构成共同前后缀

这一步也不用暴力求解,因为根据我们掌握的信息,字串前后这两部分是完全相同的,也就是说右边这部分的后缀等于左边这部分的后缀:

所以我们直接在左边寻找共同的前后缀即可,而左边的前后缀我们之前已经计算过了,为1,于是我们又回到了最开始的步骤,从A开始检查下一个字符是否相同,如果相同,则可以构成一个更长的前后缀,长度+1即可:

代码:

python 复制代码
def build_next(patt):
	"""
	计算next数组
	"""

	next = [0]  # next 数组(初值元素一个0)
	prefix_len = 0  # 当前共同前后缀长度
	i = 1
	while i < len(patt):
		# 如果下一个字符相同,代表可以构成一个更长的前后缀,则长度+1
		if patt[prefix_len] == patt[i]:
			prefix_len += 1
			next.append(prefix_len)
			i += 1
		# 如果下一个字符不同
		else:
		    # 如果依然不存在,则将next设为0
			if prefix_len == 0:
				next.append(0)
				i += 1
			# 直接查表看看其中存不存在更短的前后缀
			else:
				prefix_len = next[prefix_len - 1]
	return next
相关推荐
拾光Ծ2 分钟前
【优选算法】双指针算法:专题一
数据结构·c++·算法
Watermelo6172 分钟前
【前端实战】从 try-catch 回调到链式调用:一种更优雅的 async/await 错误处理方案
前端·javascript·网络·vue.js·算法·vue·用户体验
MSTcheng.3 分钟前
【C++】如何快速实现一棵支持key或key-value的二叉搜索树?关键技巧一文掌握!
开发语言·c++·算法·二叉搜索树
野生风长6 分钟前
从零开始的c语言:指针高级应用(下)(回调函数,qsort函数模拟实现, strlen和sizeof)
java·c语言·开发语言·c++·算法
Dingdangcat8611 分钟前
YOLO12-ADown改进算法:两轮车辆行驶环境中的多目标检测与识别_1
算法·目标检测·目标跟踪
倔强的石头10611 分钟前
Linux 进程深度解析(三):调度算法、优先级调整与进程资源回收(wait与waitpid)
linux·服务器·算法
LYFlied11 分钟前
【一句话概括】Vue2 和 Vue3 的 diff 算法区别
前端·vue.js·算法·diff
s090713616 分钟前
多波束声呐 FPGA 信号处理链路介绍
算法·fpga开发·信号处理·声呐
User_芊芊君子20 分钟前
【LeetCode经典题解】:从前序和中序遍历构建二叉树详解
算法·leetcode·职场和发展
C雨后彩虹20 分钟前
虚拟理财游戏
java·数据结构·算法·华为·面试