数据结构——BF算法

BF算法

在字符串模式匹配中,BF算法是最直观的实现方式,也被称为朴素模式匹配算法。它的核心逻辑是"暴力遍历、逐个比较",虽然效率不是最优,但因逻辑简单、易于理解,是字符串匹配的基础方法。

1. BF算法的基本思想

BF算法的核心思路是:从主串的每一个可能的起始位置开始,依次与模式串的每个字符逐一比较 。具体来说,假设主串为SSS(长度为nnn),模式串为TTT(长度为mmm),我们需要从主串的第0个字符开始,尝试将SSS的子串S[i..i+m−1]S[i..i+m-1]S[i..i+m−1]与TTT进行匹配(iii从0到n−mn-mn−m);若某一次子串与TTT完全匹配,则返回起始位置iii;若遍历完所有可能的iii后仍未匹配,则返回-1表示失败。

2. BF算法的匹配过程

为了更清晰地理解匹配逻辑,我们通过"指针移动"来拆解过程:

  • 定义两个指针iii(主串指针,初始为0)和jjj(模式串指针,初始为0);
  • 比较S[i]S[i]S[i]和T[j]T[j]T[j]:
    • 若相等:iii和jjj同时加1,继续比较下一个字符;
    • 若不相等:iii回溯到"上一次起始位置的下一个位置"(即i=i−j+1i = i - j + 1i=i−j+1),jjj重置为0,重新开始匹配;
  • 重复上述步骤,直到j=mj = mj=m(模式串完全匹配,返回i−mi - mi−m作为起始位置)或i>n−mi > n - mi>n−m(主串遍历完,匹配失败)。

以"主串S=S =S='ababcabcacbab',模式串T=T =T='abcac'"为例,匹配过程如下:

  • 初始i=0,j=0i=0, j=0i=0,j=0:S[0]=′a′S[0] = 'a'S[0]=′a′与T[0]=′a′T[0] = 'a'T[0]=′a′相等,i=1,j=1i=1, j=1i=1,j=1;
  • S[1]=′b′S[1] = 'b'S[1]=′b′与T[1]=′b′T[1] = 'b'T[1]=′b′相等,i=2,j=2i=2, j=2i=2,j=2;
  • S[2]=′a′S[2] = 'a'S[2]=′a′与T[2]=′c′T[2] = 'c'T[2]=′c′不相等,i=0−2+1=−1+1=0i = 0 - 2 + 1 = -1 + 1 = 0i=0−2+1=−1+1=0? 这里纠正,实际iii初始是0,第一次不相等时,i=0−2+1=−1i = 0 - 2 + 1 = -1i=0−2+1=−1? 不对,应该是iii初始从0开始,第一次比较到i=2,j=2i=2, j=2i=2,j=2不相等,此时iii回溯到0+1=10 + 1 = 10+1=1(因为上一次起始位置是0,回溯后起始位置是1),j=0j=0j=0;
  • 重新比较S[1]=′b′S[1] = 'b'S[1]=′b′与T[0]=′a′T[0] = 'a'T[0]=′a′不相等,iii回溯到2,j=0j=0j=0;
  • 以此类推,直到找到匹配位置或遍历结束。
3. BF算法的代码实现

以下是BF算法的C语言实现,函数返回模式串在主串中首次出现的起始位置,失败则返回-1:

c 复制代码
// BF算法:s为主串,t为模式串,n为主串长度,m为模式串长度
int BF(char s[], char t[], int n, int m) {
    int i = 0, j = 0;
    while (i < n && j < m) {
        if (s[i] == t[j]) { // 字符相等,继续比较下一个
            i++;
            j++;
        } else { // 字符不相等,主串指针回溯,模式串指针重置
            i = i - j + 1;
            j = 0;
        }
    }
    if (j == m) return i - m; // 匹配成功,返回起始位置
    else return -1; // 匹配失败
}

代码说明:

  • 循环条件i < n && j < m:确保主串和模式串都未遍历完;
  • 字符相等时,ij同时后移;不相等时,i回到"上一次起始位置的下一个位置",j重置为0,重新开始匹配;
  • j == m,说明模式串已完全匹配,返回起始位置i - m;否则返回-1表示失败。
4. BF算法的性能分析

BF算法的时间复杂度与主串、模式串的匹配情况密切相关:

  • 最好情况 :模式串的第一个字符就与主串的当前起始字符不匹配。例如,主串是"abcdef",模式串是"xyz",每次只需比较1个字符就能确定不匹配,时间复杂度为O(n+m)O(n + m)O(n+m)(nnn为主串长度,mmm为模式串长度)。
  • 最坏情况 :每次比较都到模式串的最后一个字符才不匹配,且主串有大量重复字符。例如,主串是"aaaaaab",模式串是"aaab":
    • 第一次匹配:i=0,j=0i=0, j=0i=0,j=0到j=3j=3j=3时不匹配,iii回溯到1,j=0j=0j=0;
    • 第二次匹配:i=1,j=0i=1, j=0i=1,j=0到j=3j=3j=3时不匹配,iii回溯到2,j=0j=0j=0;
    • 以此类推,直到找到匹配或遍历完主串。此时时间复杂度为O(n×m)O(n \times m)O(n×m),当nnn和mmm较大时,效率极低。

综上,BF算法的优势是逻辑简单、易于实现,适合模式串较短或匹配概率较低的场景;但在最坏情况下效率较差,这也为后续更高效的KMP算法提供了优化的动力。理解BF算法的"暴力回溯"逻辑,是掌握字符串模式匹配进阶算法的基础。

相关推荐
runepic3 小时前
阿里云 CentOS 磁盘扩容记录:resize2fs 版本过低导致无法扩容的解决方案
服务器·阿里云·centos·云计算·1024程序员节
songyuc3 小时前
VoCo-LLaMA: Towards Vision Compression with Large Language Models 译读笔记
1024程序员节
赋创小助手3 小时前
“短小精悍”的边缘AI算力利器:超微SYS-E403-14B-FRN2T服务器评测
服务器·人工智能·科技·ai·架构·边缘计算·1024程序员节
叶庭云3 小时前
一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例
人工智能·大语言模型·hugging face·1024程序员节·llms·开源模型文件结构·deepseek-v3.1
qq_ddddd3 小时前
对于随机变量x1, …, xn,其和的范数平方的期望不超过n倍各随机变量范数平方的期望之和
人工智能·神经网络·线性代数·机器学习·概率论·1024程序员节
三坛海会大神5553 小时前
CICD(一)CI/CD概述及GitLab部署和一些Git命令
git·ci/cd·1024程序员节
问道飞鱼3 小时前
【Linux知识】Linux文本操作相关命令行
linux·运维·服务器·文本处理·1024程序员节
暴躁哥3 小时前
Flink Watermark(水位线)机制详解
1024程序员节
徐同保3 小时前
tailwindcss使用@apply指令定义自己的样式
1024程序员节