结合 Leetcode 题探究KMP算法

一、题目

找出字符串中第一个匹配项的下标

二、思路

2.1 KMP的核心思想

  • 与普通的双层暴力遍历相比,KMP算法的精髓在于利用已匹配的前缀信息来优化搜索过程 。当发生不匹配时,算法不是简单地将模式串后移一位重新开始,而是根据预先计算的next数组,直接将模式串滑动到下一个可能匹配的位置。

2.2 next数组的实质

next[i] 表示在模式串的前 i 个字符组成的子串中,最长的相等真前缀与真后缀的长度。

  • 真前缀:不包含最后一个字符的前缀

  • 真后缀:不包含第一个字符的后缀

  • 核心价值 :当字符匹配失败时,next[i] 告诉我们模式串应该回溯到什么位置继续匹配

2.3 基础递推关系

next[i] 的计算基于 next[i-1] 和当前字符 pattern[i]

  1. 已知条件 :若 next[i-1] = lastNextLen,表明子串 pattern[0...lastNextLen-1] 中,前 lastNextLen 个字符与后 lastNextLen 个字符完全相等

    复制代码
    pattern[0...lastNextLen-1] == pattern[i-lastNextLen...i-1]
  2. 关键比较 :为了高效计算,利用上述 next[i-1]中已经包含的信息,比较 pattern[lastNextLen]pattern[i],就可以得到next[i]

(1) 如果相等next[i] = lastNextLen + 1(相等前后缀长度增加1)

(2) 如果不相等 :回溯到 next[lastNextLen] 继续尝试匹配

三、代码

java 复制代码
class Solution {
    public int strStr(String haystack, String needle) {
        // 使用KMP算法

        // 1、得到 next 数组
        int[] next = getNextArray(needle);

        // 2、借助 next 数组完成遍历
        int i = 0;  // 母串指针
        int j = 0;  // 子串指针
        int m = haystack.length();
        int n = needle.length();
        while(i < m && j < n){
            if(j == -1 || haystack.charAt(i) == needle.charAt(j)){
                i++;
                j++;
            }else{
                j = next[j];
            }
        }

        return j == n ? i - n : -1; // 判断子串的指针是否已经遍历完成
    }

    private int[] getNextArray(String s){
        // next数组其实是不包含当前字符的使得真前缀与真后缀相同的最大长度
        // 也就是 next[i] 要借助 next[i-1] 和 s.charAt(i) 来得到
        // 若 next[i-1] = lastNextLen 可知,s 的 [0, lastNextLen-1] 对应的字符串 == s 的 [i-1-lastNextLen, i-1]
        // 为最大地利用现有资源,所以先判断 s.charAt(lastNextLen) ?= s.charAt(i)
        // 若不等,则继续回溯进行判断
        int len = s.length();
        int[] next = new int[len];
        next[0] = -1;
        int lastNext = -1;       // 记录上一个next

        int i = 0;
        while(i < len - 1){
            // lastNext == -1:说明已经回溯到开头,没有公共前后缀,next[i+1] = 0
            // s[i] == s[lastNext]:当前字符匹配成功,最长公共前后缀长度+1
            if(lastNext == -1 || s.charAt(i) == s.charAt(lastNext)){  
                next[i + 1] = lastNext + 1;
                i++;
                lastNext++; 
            }else{  // 字符不匹配时,利用已计算的next信息进行回溯,找到更短的相同前后缀继续尝试匹配
                lastNext = next[lastNext];
            }
        }  

        return next;
    }
}
相关推荐
Unstoppable2216 小时前
代码随想录算法训练营第 56 天 | 拓扑排序精讲、Dijkstra(朴素版)精讲
java·数据结构·算法·
饕餮怪程序猿17 小时前
A*算法(C++实现)
开发语言·c++·算法
电饭叔17 小时前
不含Luhn算法《python语言程序设计》2018版--第8章14题利用字符串输入作为一个信用卡号之二(识别卡号有效)
java·python·算法
2301_8002561117 小时前
8.2 空间查询基本组件 核心知识点总结
数据库·人工智能·算法
不穿格子的程序员17 小时前
从零开始写算法——矩阵类题:矩阵置零 + 螺旋矩阵
线性代数·算法·矩阵
资深web全栈开发18 小时前
LeetCode 3432. 统计元素和差值为偶数的分区方案数
算法·leetcode
黎茗Dawn18 小时前
DDPM-KL 散度与 L2 损失
人工智能·算法·机器学习
wearegogog12318 小时前
DEA模型MATLAB实现(CCR、BCC、超效率)
开发语言·算法·matlab
业精于勤的牙18 小时前
浅谈:快递物流与算法的相关性(四)
算法
ghie909018 小时前
MATLAB自适应子空间辨识工具箱
数据结构·算法·matlab