搜索引擎中广泛使用的文档排序算法——BM25（Best Matching 25）

ejinxian2024-11-25 9:45

在搜索场景中，BM25能计算每个文档与查询的匹配度，从中找出最相关的文档，并按相关性高低排序展示。

要理解BM25，需要掌握以下几个关键概念：

词频（Term Frequency, TF）：某关键词在文档中出现的次数。关键词出现越频繁，通常表示文档与查询的相关性越高。
逆文档频率（Inverse Document Frequency, IDF）：衡量某关键词在整个文档集合中的稀有程度。稀有关键词的区分度更高，对评分贡献大，其计算公式为：【图1】
文档长度归一化（Document Length Normalization）：调整文档长度对相关性评分的影响。避免长文档因为包含更多关键词而获得不公平的高分。
参数 k1 和 b

k1：控制词频对评分的影响程度。值越高，词频权重越大。
b：控制文档长度归一化的强度。b=0时忽略文档长度，b=1时完全考虑。

BM25结合上述概念，通过以下步骤计算每篇文档的相关性得分------

计算IDF，然后计算每个关键词的得分【图2】，再将各关键词的得分相加，得到文档的总相关性得分。

举个栗子，假设有以下三个文档，查询关键词"猫养护"：

文档1：包含"猫"和"养护"各2次，总长度100个词。
文档2：包含"猫"3次，总长度150个词。
文档3：包含"养护"1次，总长度80个词。

计算两个关键词的IDF【图3】后，再计算各文档的BM25得分，最终得出：

文档1：同时包含"猫"和"养护"，得分较高。
文档2：仅包含"猫"，但词频较高。
文档3：仅包含"养护"，且词频低，得分最低。

详细内容：

Understanding the BM25 full text search algorithm | Evan Schwartz

上一篇：Python 编程开发（01）：Bash 命令行基本操作

下一篇：《深入浅出HTTPS》读书笔记（10）：流密码算法

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05如何新建文件夹？电脑新建文件夹的4种方法 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10全面体验 Grok API 中转站（2025 · Grok 4 系列最新版）