数据结构——BF算法

BF算法

在字符串模式匹配中，BF算法是最直观的实现方式，也被称为朴素模式匹配算法。它的核心逻辑是"暴力遍历、逐个比较"，虽然效率不是最优，但因逻辑简单、易于理解，是字符串匹配的基础方法。

1. BF算法的基本思想

BF算法的核心思路是：从主串的每一个可能的起始位置开始，依次与模式串的每个字符逐一比较 。具体来说，假设主串为SSS（长度为nnn），模式串为TTT（长度为mmm），我们需要从主串的第0个字符开始，尝试将SSS的子串S[i..i+m−1]S[i..i+m-1]S[i..i+m−1]与TTT进行匹配（iii从0到n−mn-mn−m）；若某一次子串与TTT完全匹配，则返回起始位置iii；若遍历完所有可能的iii后仍未匹配，则返回-1表示失败。

2. BF算法的匹配过程

为了更清晰地理解匹配逻辑，我们通过"指针移动"来拆解过程：

定义两个指针iii（主串指针，初始为0）和jjj（模式串指针，初始为0）；
比较S[i]S[i]S[i]和T[j]T[j]T[j]：
- 若相等：iii和jjj同时加1，继续比较下一个字符；
- 若不相等：iii回溯到"上一次起始位置的下一个位置"（即i=i−j+1i = i - j + 1i=i−j+1），jjj重置为0，重新开始匹配；
重复上述步骤，直到j=mj = mj=m（模式串完全匹配，返回i−mi - mi−m作为起始位置）或i>n−mi > n - mi>n−m（主串遍历完，匹配失败）。

以"主串S=S =S='ababcabcacbab'，模式串T=T =T='abcac'"为例，匹配过程如下：

初始i=0,j=0i=0, j=0i=0,j=0：S[0]=′a′S[0] = 'a'S[0]=′a′与T[0]=′a′T[0] = 'a'T[0]=′a′相等，i=1,j=1i=1, j=1i=1,j=1；
S[1]=′b′S[1] = 'b'S[1]=′b′与T[1]=′b′T[1] = 'b'T[1]=′b′相等，i=2,j=2i=2, j=2i=2,j=2；
S[2]=′a′S[2] = 'a'S[2]=′a′与T[2]=′c′T[2] = 'c'T[2]=′c′不相等，i=0−2+1=−1+1=0i = 0 - 2 + 1 = -1 + 1 = 0i=0−2+1=−1+1=0？这里纠正，实际iii初始是0，第一次不相等时，i=0−2+1=−1i = 0 - 2 + 1 = -1i=0−2+1=−1？不对，应该是iii初始从0开始，第一次比较到i=2,j=2i=2, j=2i=2,j=2不相等，此时iii回溯到0+1=10 + 1 = 10+1=1（因为上一次起始位置是0，回溯后起始位置是1），j=0j=0j=0；
重新比较S[1]=′b′S[1] = 'b'S[1]=′b′与T[0]=′a′T[0] = 'a'T[0]=′a′不相等，iii回溯到2，j=0j=0j=0；
以此类推，直到找到匹配位置或遍历结束。

3. BF算法的代码实现

以下是BF算法的C语言实现，函数返回模式串在主串中首次出现的起始位置，失败则返回-1：

c 复制代码

// BF算法：s为主串，t为模式串，n为主串长度，m为模式串长度
int BF(char s[], char t[], int n, int m) {
    int i = 0, j = 0;
    while (i < n && j < m) {
        if (s[i] == t[j]) { // 字符相等，继续比较下一个
            i++;
            j++;
        } else { // 字符不相等，主串指针回溯，模式串指针重置
            i = i - j + 1;
            j = 0;
        }
    }
    if (j == m) return i - m; // 匹配成功，返回起始位置
    else return -1; // 匹配失败
}

代码说明：

循环条件i < n && j < m：确保主串和模式串都未遍历完；
字符相等时，i和j同时后移；不相等时，i回到"上一次起始位置的下一个位置"，j重置为0，重新开始匹配；
若j == m，说明模式串已完全匹配，返回起始位置i - m；否则返回-1表示失败。

4. BF算法的性能分析

BF算法的时间复杂度与主串、模式串的匹配情况密切相关：

最好情况 ：模式串的第一个字符就与主串的当前起始字符不匹配。例如，主串是"abcdef"，模式串是"xyz"，每次只需比较1个字符就能确定不匹配，时间复杂度为O(n+m)O(n + m)O(n+m)（nnn为主串长度，mmm为模式串长度）。
最坏情况 ：每次比较都到模式串的最后一个字符才不匹配，且主串有大量重复字符。例如，主串是"aaaaaab"，模式串是"aaab"：
- 第一次匹配：i=0,j=0i=0, j=0i=0,j=0到j=3j=3j=3时不匹配，iii回溯到1，j=0j=0j=0；
- 第二次匹配：i=1,j=0i=1, j=0i=1,j=0到j=3j=3j=3时不匹配，iii回溯到2，j=0j=0j=0；
- 以此类推，直到找到匹配或遍历完主串。此时时间复杂度为O(n×m)O(n \times m)O(n×m)，当nnn和mmm较大时，效率极低。

综上，BF算法的优势是逻辑简单、易于实现，适合模式串较短或匹配概率较低的场景；但在最坏情况下效率较差，这也为后续更高效的KMP算法提供了优化的动力。理解BF算法的"暴力回溯"逻辑，是掌握字符串模式匹配进阶算法的基础。