数据结构——BF算法

BF算法

在字符串模式匹配中,BF算法是最直观的实现方式,也被称为朴素模式匹配算法。它的核心逻辑是"暴力遍历、逐个比较",虽然效率不是最优,但因逻辑简单、易于理解,是字符串匹配的基础方法。

1. BF算法的基本思想

BF算法的核心思路是:从主串的每一个可能的起始位置开始,依次与模式串的每个字符逐一比较 。具体来说,假设主串为SSS(长度为nnn),模式串为TTT(长度为mmm),我们需要从主串的第0个字符开始,尝试将SSS的子串Si..i+m−1Si..i+m-1Si..i+m−1与TTT进行匹配(iii从0到n−mn-mn−m);若某一次子串与TTT完全匹配,则返回起始位置iii;若遍历完所有可能的iii后仍未匹配,则返回-1表示失败。

2. BF算法的匹配过程

为了更清晰地理解匹配逻辑,我们通过"指针移动"来拆解过程:

  • 定义两个指针iii(主串指针,初始为0)和jjj(模式串指针,初始为0);
  • 比较SiSiSi和TjTjTj
    • 若相等:iii和jjj同时加1,继续比较下一个字符;
    • 若不相等:iii回溯到"上一次起始位置的下一个位置"(即i=i−j+1i = i - j + 1i=i−j+1),jjj重置为0,重新开始匹配;
  • 重复上述步骤,直到j=mj = mj=m(模式串完全匹配,返回i−mi - mi−m作为起始位置)或i>n−mi > n - mi>n−m(主串遍历完,匹配失败)。

以"主串S=S =S='ababcabcacbab',模式串T=T =T='abcac'"为例,匹配过程如下:

  • 初始i=0,j=0i=0, j=0i=0,j=0:S0=′a′S0 = 'a'S0=′a′与T0=′a′T0 = 'a'T0=′a′相等,i=1,j=1i=1, j=1i=1,j=1;
  • S1=′b′S1 = 'b'S1=′b′与T1=′b′T1 = 'b'T1=′b′相等,i=2,j=2i=2, j=2i=2,j=2;
  • S2=′a′S2 = 'a'S2=′a′与T2=′c′T2 = 'c'T2=′c′不相等,i=0−2+1=−1+1=0i = 0 - 2 + 1 = -1 + 1 = 0i=0−2+1=−1+1=0? 这里纠正,实际iii初始是0,第一次不相等时,i=0−2+1=−1i = 0 - 2 + 1 = -1i=0−2+1=−1? 不对,应该是iii初始从0开始,第一次比较到i=2,j=2i=2, j=2i=2,j=2不相等,此时iii回溯到0+1=10 + 1 = 10+1=1(因为上一次起始位置是0,回溯后起始位置是1),j=0j=0j=0;
  • 重新比较S1=′b′S1 = 'b'S1=′b′与T0=′a′T0 = 'a'T0=′a′不相等,iii回溯到2,j=0j=0j=0;
  • 以此类推,直到找到匹配位置或遍历结束。
3. BF算法的代码实现

以下是BF算法的C语言实现,函数返回模式串在主串中首次出现的起始位置,失败则返回-1:

c 复制代码
// BF算法:s为主串,t为模式串,n为主串长度,m为模式串长度
int BF(char s[], char t[], int n, int m) {
    int i = 0, j = 0;
    while (i < n && j < m) {
        if (s[i] == t[j]) { // 字符相等,继续比较下一个
            i++;
            j++;
        } else { // 字符不相等,主串指针回溯,模式串指针重置
            i = i - j + 1;
            j = 0;
        }
    }
    if (j == m) return i - m; // 匹配成功,返回起始位置
    else return -1; // 匹配失败
}

代码说明:

  • 循环条件i < n && j < m:确保主串和模式串都未遍历完;
  • 字符相等时,ij同时后移;不相等时,i回到"上一次起始位置的下一个位置",j重置为0,重新开始匹配;
  • j == m,说明模式串已完全匹配,返回起始位置i - m;否则返回-1表示失败。
4. BF算法的性能分析

BF算法的时间复杂度与主串、模式串的匹配情况密切相关:

  • 最好情况 :模式串的第一个字符就与主串的当前起始字符不匹配。例如,主串是"abcdef",模式串是"xyz",每次只需比较1个字符就能确定不匹配,时间复杂度为O(n+m)O(n + m)O(n+m)(nnn为主串长度,mmm为模式串长度)。
  • 最坏情况 :每次比较都到模式串的最后一个字符才不匹配,且主串有大量重复字符。例如,主串是"aaaaaab",模式串是"aaab":
    • 第一次匹配:i=0,j=0i=0, j=0i=0,j=0到j=3j=3j=3时不匹配,iii回溯到1,j=0j=0j=0;
    • 第二次匹配:i=1,j=0i=1, j=0i=1,j=0到j=3j=3j=3时不匹配,iii回溯到2,j=0j=0j=0;
    • 以此类推,直到找到匹配或遍历完主串。此时时间复杂度为O(n×m)O(n \times m)O(n×m),当nnn和mmm较大时,效率极低。

综上,BF算法的优势是逻辑简单、易于实现,适合模式串较短或匹配概率较低的场景;但在最坏情况下效率较差,这也为后续更高效的KMP算法提供了优化的动力。理解BF算法的"暴力回溯"逻辑,是掌握字符串模式匹配进阶算法的基础。

相关推荐
想吃火锅100521 分钟前
【leetcode】14.最长公共前缀js
算法·leetcode·职场和发展
云絮.1 小时前
数据库操作
数据库·mysql·算法·oracle
小林ixn2 小时前
LeetCode 206. 反转链表(迭代 + 递归详解)
算法·leetcode·链表
凡人叶枫2 小时前
Effective C++ 条款17:以独立语句将 newed 对象置入智能指针
java·linux·开发语言·c++·算法
菜鸟‍3 小时前
LeetCode 1 27 和 704 || 两数之和 移除元素 二分查找
算法·leetcode·职场和发展
退休倒计时5 小时前
【每日一题】LeetCode 142. 环形链表 II TypeScript
算法·leetcode·链表·typescript
popcorn_min5 小时前
Digits 手写数字识别:随机森林多分类 + 像素级特征热力图
算法·随机森林·分类
liulilittle6 小时前
拥塞控制:排水终止的两种决策:OR 与 AND
网络·tcp/ip·计算机网络·算法·信息与通信·tcp·通信
花间相见6 小时前
【LeetCode02】—— 两数之和:哈希表入门经典详解
数据结构·散列表
weixin_307779136 小时前
从脚本执行到智能体协作:AI辅助测试能力的范式重构
运维·开发语言·人工智能·算法·测试用例