BF算法
在字符串模式匹配中,BF算法是最直观的实现方式,也被称为朴素模式匹配算法。它的核心逻辑是"暴力遍历、逐个比较",虽然效率不是最优,但因逻辑简单、易于理解,是字符串匹配的基础方法。
1. BF算法的基本思想
BF算法的核心思路是:从主串的每一个可能的起始位置开始,依次与模式串的每个字符逐一比较 。具体来说,假设主串为SSS(长度为nnn),模式串为TTT(长度为mmm),我们需要从主串的第0个字符开始,尝试将SSS的子串S[i..i+m−1]S[i..i+m-1]S[i..i+m−1]与TTT进行匹配(iii从0到n−mn-mn−m);若某一次子串与TTT完全匹配,则返回起始位置iii;若遍历完所有可能的iii后仍未匹配,则返回-1表示失败。
2. BF算法的匹配过程
为了更清晰地理解匹配逻辑,我们通过"指针移动"来拆解过程:
- 定义两个指针iii(主串指针,初始为0)和jjj(模式串指针,初始为0);
- 比较S[i]S[i]S[i]和T[j]T[j]T[j]:
- 若相等:iii和jjj同时加1,继续比较下一个字符;
- 若不相等:iii回溯到"上一次起始位置的下一个位置"(即i=i−j+1i = i - j + 1i=i−j+1),jjj重置为0,重新开始匹配;
- 重复上述步骤,直到j=mj = mj=m(模式串完全匹配,返回i−mi - mi−m作为起始位置)或i>n−mi > n - mi>n−m(主串遍历完,匹配失败)。
以"主串S=S =S='ababcabcacbab',模式串T=T =T='abcac'"为例,匹配过程如下:
- 初始i=0,j=0i=0, j=0i=0,j=0:S[0]=′a′S[0] = 'a'S[0]=′a′与T[0]=′a′T[0] = 'a'T[0]=′a′相等,i=1,j=1i=1, j=1i=1,j=1;
- S[1]=′b′S[1] = 'b'S[1]=′b′与T[1]=′b′T[1] = 'b'T[1]=′b′相等,i=2,j=2i=2, j=2i=2,j=2;
- S[2]=′a′S[2] = 'a'S[2]=′a′与T[2]=′c′T[2] = 'c'T[2]=′c′不相等,i=0−2+1=−1+1=0i = 0 - 2 + 1 = -1 + 1 = 0i=0−2+1=−1+1=0? 这里纠正,实际iii初始是0,第一次不相等时,i=0−2+1=−1i = 0 - 2 + 1 = -1i=0−2+1=−1? 不对,应该是iii初始从0开始,第一次比较到i=2,j=2i=2, j=2i=2,j=2不相等,此时iii回溯到0+1=10 + 1 = 10+1=1(因为上一次起始位置是0,回溯后起始位置是1),j=0j=0j=0;
- 重新比较S[1]=′b′S[1] = 'b'S[1]=′b′与T[0]=′a′T[0] = 'a'T[0]=′a′不相等,iii回溯到2,j=0j=0j=0;
- 以此类推,直到找到匹配位置或遍历结束。
3. BF算法的代码实现
以下是BF算法的C语言实现,函数返回模式串在主串中首次出现的起始位置,失败则返回-1:
c
// BF算法:s为主串,t为模式串,n为主串长度,m为模式串长度
int BF(char s[], char t[], int n, int m) {
int i = 0, j = 0;
while (i < n && j < m) {
if (s[i] == t[j]) { // 字符相等,继续比较下一个
i++;
j++;
} else { // 字符不相等,主串指针回溯,模式串指针重置
i = i - j + 1;
j = 0;
}
}
if (j == m) return i - m; // 匹配成功,返回起始位置
else return -1; // 匹配失败
}
代码说明:
- 循环条件
i < n && j < m:确保主串和模式串都未遍历完; - 字符相等时,
i和j同时后移;不相等时,i回到"上一次起始位置的下一个位置",j重置为0,重新开始匹配; - 若
j == m,说明模式串已完全匹配,返回起始位置i - m;否则返回-1表示失败。
4. BF算法的性能分析
BF算法的时间复杂度与主串、模式串的匹配情况密切相关:
- 最好情况 :模式串的第一个字符就与主串的当前起始字符不匹配。例如,主串是"abcdef",模式串是"xyz",每次只需比较1个字符就能确定不匹配,时间复杂度为O(n+m)O(n + m)O(n+m)(nnn为主串长度,mmm为模式串长度)。
- 最坏情况 :每次比较都到模式串的最后一个字符才不匹配,且主串有大量重复字符。例如,主串是"aaaaaab",模式串是"aaab":
- 第一次匹配:i=0,j=0i=0, j=0i=0,j=0到j=3j=3j=3时不匹配,iii回溯到1,j=0j=0j=0;
- 第二次匹配:i=1,j=0i=1, j=0i=1,j=0到j=3j=3j=3时不匹配,iii回溯到2,j=0j=0j=0;
- 以此类推,直到找到匹配或遍历完主串。此时时间复杂度为O(n×m)O(n \times m)O(n×m),当nnn和mmm较大时,效率极低。
综上,BF算法的优势是逻辑简单、易于实现,适合模式串较短或匹配概率较低的场景;但在最坏情况下效率较差,这也为后续更高效的KMP算法提供了优化的动力。理解BF算法的"暴力回溯"逻辑,是掌握字符串模式匹配进阶算法的基础。