KMP算法

1. 先讲一下搜索过程

假设我们已经生成了 next 数组,

python 复制代码
def kmp_search(string, patt):
	next = build_next(patt) # 假设我们已经算出了next数组
	i = 0  # 主串中的指针
	j = 0  # 子串中的指针
	while i < len(string):
		if string[i] == patt[j]:  # 字符匹配,指针后移
			i += 1
			j += 1
		elif j > 0:  # 字符失配,根据next跳过字串前面的一些字符, next[j-1]是几字串的指针就跳过几个
			j = next[j-1]
		else:  # 子串第一个字符就失配
			i += 1
		
		if j == len(patt):  # 匹配成功
			return i - j



2. next数组的生成

next 数值代表了在匹配失败的时候子串中可以跳过的字符个数,如果是2就代表我们可以跳过前两个字符的比较,但凭什么可以这么做呢?

如图因为我们之前匹配的最后那两个 AB 和这里跳过的最前面的这两个 AB 是一样的,即两个黄线上的 AB 是一样的。

换句话说对于字串的前四个字符,他们拥有相同的前缀和后缀,长度为2

python 复制代码
"A"的前缀为空,后缀也为空,所以相同前后缀的最长长度为0

"AB"的前缀:A
"AB"的后缀:B
相同前后缀的最长长度为0

"ABA"的前缀:A, AB
"ABA"的后缀:A, BA

"ABAB"的前缀:A, AB, ABA
"ABAB"的后缀:B, AB, BAB
相同前后缀的最长长度为2

"ABABC"的前缀:A, AB, ABA, ABAB
"ABABC"的后缀:C, BC, ABC, BABC
相同前后缀的最长长度为0

(前后缀不包含字符串本身)

next 数组的本质就是寻找子串中相同前后缀的长度

递推求解 next 数组:

这个方法的巧妙之处在于会不断利用已经掌握的信息来避免重复的运算。如下图,假设我们已经知道当前的最长共同前后缀为2

接下来分两种情况讨论:

  • 如果下一个字符相同的话就可以直接构成一个更长的前后缀,它的长度等于之前的加上1
  • 如果下一个字符不同我们就要看看其中存不存在更短的

比如这里的A,它有可能跟下一个字符构成共同前后缀

这一步也不用暴力求解,因为根据我们掌握的信息,字串前后这两部分是完全相同的,也就是说右边这部分的后缀等于左边这部分的后缀:

所以我们直接在左边寻找共同的前后缀即可,而左边的前后缀我们之前已经计算过了,为1,于是我们又回到了最开始的步骤,从A开始检查下一个字符是否相同,如果相同,则可以构成一个更长的前后缀,长度+1即可:

代码:

python 复制代码
def build_next(patt):
	"""
	计算next数组
	"""

	next = [0]  # next 数组(初值元素一个0)
	prefix_len = 0  # 当前共同前后缀长度
	i = 1
	while i < len(patt):
		# 如果下一个字符相同,代表可以构成一个更长的前后缀,则长度+1
		if patt[prefix_len] == patt[i]:
			prefix_len += 1
			next.append(prefix_len)
			i += 1
		# 如果下一个字符不同
		else:
		    # 如果依然不存在,则将next设为0
			if prefix_len == 0:
				next.append(0)
				i += 1
			# 直接查表看看其中存不存在更短的前后缀
			else:
				prefix_len = next[prefix_len - 1]
	return next
相关推荐
Dizzy.51733 分钟前
数据结构(查找)
数据结构·学习·算法
分别努力读书3 小时前
acm培训 part 7
算法·图论
武乐乐~3 小时前
欢乐力扣:赎金信
算法·leetcode·职场和发展
'Debug4 小时前
算法从0到100之【专题一】- 双指针第一练(数组划分、数组分块)
算法
Fansv5874 小时前
深度学习-2.机械学习基础
人工智能·经验分享·python·深度学习·算法·机器学习
yatingliu20195 小时前
代码随想录算法训练营第六天| 242.有效的字母异位词 、349. 两个数组的交集、202. 快乐数 、1. 两数之和
c++·算法
uhakadotcom6 小时前
Google DeepMind最近发布了SigLIP 2
人工智能·算法·架构
三年呀6 小时前
计算机视觉之图像处理-----SIFT、SURF、FAST、ORB 特征提取算法深度解析
图像处理·python·深度学习·算法·目标检测·机器学习·计算机视觉
淡黄的Cherry6 小时前
istio实现灰度发布,A/B发布, Kiali网格可视化(二)
java·算法·istio
Onlooker1297 小时前
LC-单词搜索、分割回文串、N皇后、搜索插入位置、搜索二维矩阵
算法·leetcode