搜索引擎中广泛使用的文档排序算法——BM25(Best Matching 25)

在搜索场景中,BM25能计算每个文档与查询的匹配度,从中找出最相关的文档,并按相关性高低排序展示。

要理解BM25,需要掌握以下几个关键概念:

  1. 词频(Term Frequency, TF):某关键词在文档中出现的次数。关键词出现越频繁,通常表示文档与查询的相关性越高。

  2. 逆文档频率(Inverse Document Frequency, IDF):衡量某关键词在整个文档集合中的稀有程度。稀有关键词的区分度更高,对评分贡献大,其计算公式为:【图1】

  3. 文档长度归一化(Document Length Normalization):调整文档长度对相关性评分的影响。避免长文档因为包含更多关键词而获得不公平的高分。

  4. 参数 k1 和 b

  • k1:控制词频对评分的影响程度。值越高,词频权重越大。

  • b:控制文档长度归一化的强度。b=0时忽略文档长度,b=1时完全考虑。

BM25结合上述概念,通过以下步骤计算每篇文档的相关性得分------

计算IDF,然后计算每个关键词的得分【图2】,再将各关键词的得分相加,得到文档的总相关性得分。

举个栗子,假设有以下三个文档,查询关键词"猫 养护":

  • 文档1:包含"猫"和"养护"各2次,总长度100个词。

  • 文档2:包含"猫"3次,总长度150个词。

  • 文档3:包含"养护"1次,总长度80个词。

计算两个关键词的IDF【图3】后,再计算各文档的BM25得分,最终得出:

  • 文档1:同时包含"猫"和"养护",得分较高。

  • 文档2:仅包含"猫",但词频较高。

  • 文档3:仅包含"养护",且词频低,得分最低。

详细内容:

Understanding the BM25 full text search algorithm | Evan Schwartz

相关推荐
二爷记1 小时前
QXQ3真i9级CPU是捡漏还是踩坑!i9-12900 ES版CPU值得入手吗?
大数据·elasticsearch·搜索引擎·全文检索
何双新2 小时前
L3-3、从单轮到链式任务:设计协作型 Prompt 系统
服务器·搜索引擎·prompt
技术项目引流12 小时前
elasticsearch查询中的特殊字符影响分析
大数据·elasticsearch·搜索引擎
盈达科技12 小时前
【盈达科技】GEO(生成式引擎优化)底层逻辑
搜索引擎
yangmf204017 小时前
使用 Logstash 迁移 MongoDB 数据到 Easysearch
java·elasticsearch·搜索引擎
Elastic 中国社区官方博客2 天前
Elasticsearch 堆内存使用情况和 JVM 垃圾回收
大数据·jvm·数据库·elasticsearch·搜索引擎·全文检索
TracyCoder1232 天前
ElasticSearch深入解析(二):核心概念
大数据·elasticsearch·搜索引擎
白雪讲堂2 天前
【白雪讲堂】GEO优化第7篇 -构建《推荐类》内容的结构化模板
大数据·人工智能·搜索引擎·geo
yangmf20402 天前
私有知识库 Coco AI 实战(三):摄入 Elasticsearch 官方文档
人工智能·elasticsearch·搜索引擎·全文检索·coco ai
光算科技2 天前
网站301搬家后谷歌一直不收录新页面怎么办?
搜索引擎