【力扣-KMP】28.找出字符串第一个匹配项的下标

问题描述

思路解析

使用KMP算法，KMP算法的优点在于

原串不需要回溯，可以继续往前不断执行
匹配的子串，可以通过next\[\]数组来减少从零开始匹配的次数，会从有相同前后缀的地方开始重新匹配

KMP的关键点就在于如何构建next\[\]数组

构造方法为：next $i$ 对应的下标，为 P $0...i - 1$ 的最长公共前缀后缀的长度，令 next $0$ = -1。具体解释如下：

例如对于字符串 abcba：

前缀：它的前缀包括：a, ab, abc, abcb，不包括本身；

后缀：它的后缀包括：bcba, cba, ba, a，不包括本身；

最长公共前缀后缀：abcba 的前缀和后缀中只有 a 是公共部分，字符串 a 的长度为 1。

所以，我们将 P $0...i - 1$ 的最长公共前后缀的长度作为 next $i$ 的下标，就得到了 next 数组。

关于构造next数组我觉得有几个需要注意的点

next【0】=-1
- 这是因为对于构造next【】数组，其实就是子串自身的相同子串的查找，那么也是可以类似递归使用next数组的，对于字符串不匹配的情况下，我们会让 i=next $i$ （i是相当于子串的自身匹配串的下标），如果next $0$ =0的话，那么会不断重复这一点，导致死循环。所以让 next $0$ =-1，这样只要在进行比较的while循环进行特判就好了
i=nexti
- 当子串的字符串不匹配的时候，也可以使用next数组来减少匹配的项数，如果存在公共前后缀的话，那么就可以不用重头匹配，而是在之前的next 下标处开始匹配。

代码

java 复制代码

class Solution {
    public int strStr(String haystack, String needle) {
        int m=haystack.length(),i=0;
        int n=needle.length(),j=0;
        int []next=newNext(needle);

        while(i<m&&j<n){
            if(j<0||haystack.charAt(i)==needle.charAt(j)){
                i++;j++;
            }else{
                j=next[j];
            }
        }
        if(j==n) return i-j;
        return -1;
    }

    //这个构造next数组的过程，类比于对于匹配数组自身进行字符串匹配
    
    private  int[] newNext(String needle){
        int len=needle.length();
        int[]next=new int[len];
        next[0]=-1;
        int i=-1,j=0;
        while(j<len-1){
            if(i==-1||needle.charAt(i)==needle.charAt(j)){
                i++;  j++;
                next[j]=i;
            }
            else{
                i=next[i];
            }
        }
        return next;
    }
}