KMP算法

1. 先讲一下搜索过程

假设我们已经生成了 next 数组,

python 复制代码
def kmp_search(string, patt):
	next = build_next(patt) # 假设我们已经算出了next数组
	i = 0  # 主串中的指针
	j = 0  # 子串中的指针
	while i < len(string):
		if string[i] == patt[j]:  # 字符匹配,指针后移
			i += 1
			j += 1
		elif j > 0:  # 字符失配,根据next跳过字串前面的一些字符, next[j-1]是几字串的指针就跳过几个
			j = next[j-1]
		else:  # 子串第一个字符就失配
			i += 1
		
		if j == len(patt):  # 匹配成功
			return i - j



2. next数组的生成

next 数值代表了在匹配失败的时候子串中可以跳过的字符个数,如果是2就代表我们可以跳过前两个字符的比较,但凭什么可以这么做呢?

如图因为我们之前匹配的最后那两个 AB 和这里跳过的最前面的这两个 AB 是一样的,即两个黄线上的 AB 是一样的。

换句话说对于字串的前四个字符,他们拥有相同的前缀和后缀,长度为2

python 复制代码
"A"的前缀为空,后缀也为空,所以相同前后缀的最长长度为0

"AB"的前缀:A
"AB"的后缀:B
相同前后缀的最长长度为0

"ABA"的前缀:A, AB
"ABA"的后缀:A, BA

"ABAB"的前缀:A, AB, ABA
"ABAB"的后缀:B, AB, BAB
相同前后缀的最长长度为2

"ABABC"的前缀:A, AB, ABA, ABAB
"ABABC"的后缀:C, BC, ABC, BABC
相同前后缀的最长长度为0

(前后缀不包含字符串本身)

next 数组的本质就是寻找子串中相同前后缀的长度

递推求解 next 数组:

这个方法的巧妙之处在于会不断利用已经掌握的信息来避免重复的运算。如下图,假设我们已经知道当前的最长共同前后缀为2

接下来分两种情况讨论:

  • 如果下一个字符相同的话就可以直接构成一个更长的前后缀,它的长度等于之前的加上1
  • 如果下一个字符不同我们就要看看其中存不存在更短的

比如这里的A,它有可能跟下一个字符构成共同前后缀

这一步也不用暴力求解,因为根据我们掌握的信息,字串前后这两部分是完全相同的,也就是说右边这部分的后缀等于左边这部分的后缀:

所以我们直接在左边寻找共同的前后缀即可,而左边的前后缀我们之前已经计算过了,为1,于是我们又回到了最开始的步骤,从A开始检查下一个字符是否相同,如果相同,则可以构成一个更长的前后缀,长度+1即可:

代码:

python 复制代码
def build_next(patt):
	"""
	计算next数组
	"""

	next = [0]  # next 数组(初值元素一个0)
	prefix_len = 0  # 当前共同前后缀长度
	i = 1
	while i < len(patt):
		# 如果下一个字符相同,代表可以构成一个更长的前后缀,则长度+1
		if patt[prefix_len] == patt[i]:
			prefix_len += 1
			next.append(prefix_len)
			i += 1
		# 如果下一个字符不同
		else:
		    # 如果依然不存在,则将next设为0
			if prefix_len == 0:
				next.append(0)
				i += 1
			# 直接查表看看其中存不存在更短的前后缀
			else:
				prefix_len = next[prefix_len - 1]
	return next
相关推荐
聚客AI15 小时前
🙋‍♀️Transformer训练与推理全流程:从输入处理到输出生成
人工智能·算法·llm
大怪v18 小时前
前端:人工智能?我也会啊!来个花活,😎😎😎“自动驾驶”整起!
前端·javascript·算法
惯导马工20 小时前
【论文导读】ORB-SLAM3:An Accurate Open-Source Library for Visual, Visual-Inertial and
深度学习·算法
骑自行车的码农21 小时前
【React用到的一些算法】游标和栈
算法·react.js
博笙困了21 小时前
AcWing学习——双指针算法
c++·算法
moonlifesudo1 天前
322:零钱兑换(三种方法)
算法
NAGNIP2 天前
大模型框架性能优化策略:延迟、吞吐量与成本权衡
算法
美团技术团队2 天前
LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型
人工智能·算法
Fanxt_Ja2 天前
【LeetCode】算法详解#15 ---环形链表II
数据结构·算法·leetcode·链表
侃侃_天下2 天前
最终的信号类
开发语言·c++·算法