ElasticSearch查询时修改打分

原生的ES打分基于BM25算法,相比于TF-IDF已经有了较大的改进,但是在实际场景中往往最终的排序效果还是需要进行调整。由于直接修改索引的权重往往代价较大,比较经济的方式还是在查询时即时修改得分以实现排序控制。

注:案例测试数据详见:ElasticSearch中使用bge-large-zh-v1.5进行向量检索(一)-CSDN博客 中的第三部分。

场景一:negative_boost

适用场景:想降低某些关键词的检索权重,但这些文档往往又包含我们想命中的关键词,直接去掉也不合适,只能把排名降低。

例如,针对以下case,我们想搜包含"新疆"的文档:

bash 复制代码
GET article/_search
{
  "query": {
    "match": {
      "title": "新疆"
    }
  }
}

直出的结果为:

编号002的在003前面。

假设我们的需求是想让出现"中欧"关键词的文档相关度降低,则可以使用negative_boost:

bash 复制代码
GET article/_search
{
  "query": {
    "boosting": {
      "positive": {
        "match": {
          "title": "新疆"
        }
      },
      "negative": {
        "match": {
          "title": "中欧"
        }
      },
      "negative_boost": 0.5
    }
  }
}

效果:

调整后编号003的在002的前面,因为标题包含"中欧"的文档的分值乘以了negative_boost(0.5)后被降低了。

场景二:script_score

适用场景:利用索引数据中既有的一些数值字段细粒度控制打分函数。有些索引中本来就有可以用来排名的字段(比如点赞数,阅读数,评论数等等)。

还是上文的案例,默认情况下搜"新疆",文档002在003之前,但很明显,文档003的阅读量(readNumber)更高,我们想让其排在前面。可以使用如下的查询:

bash 复制代码
GET article/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "title": "新疆"
        }
      },
      "script_score": {
        "script": {
          "source": "_score * (doc['readNumber'].value)"
        }
      }
    }
  }
}

注意script_score要写在function_score里,其中_score * (doc['readNumber'].value)的意思是:将原始的打分乘以readNumber(阅读量)字段的值作为最终的打分。

最终效果如下:

场景三:field_value_factor

适用场景:和script_score类似,更注重打分平滑性。

还是上文的案例,默认情况下搜"新疆",文档002在003之前,但很明显,文档003的阅读量(readNumber)更高,我们想让其排在前面。可以使用如下的查询:

bash 复制代码
GET article/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "title": "新疆"
        }
      },
      "field_value_factor": {
        "field": "readNumber",
        "modifier": "log1p",
        "factor": 2,
        "missing": 1
      },
      "boost_mode": "multiply"
    }
  }
}

field_value_factor的含义:

field:待计算的字段

modifier:打分函数

factor:field计算时乘以的因子

missing:缺失值

boost_mode:和原始打分_score的结合方式。分 sum / avg / multiply / max / min / replace

上述语句的含义等于:

新分数=原分数 * log(1 + 2 * readNumber)

效果如下:

优势是得分相对比较光滑,比较接近。

相关推荐
逸Y 仙X7 小时前
文章二十七:ElasticSearch ES查询模板(Search Template)高效复用实战
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
AC赳赳老秦7 小时前
接口测试自动化:用 OpenClaw 对接 Postman,实现批量回归测试、测试报告自动生成与推送
java·人工智能·python·算法·elasticsearch·deepseek·openclaw
逸Y 仙X11 小时前
文章二十六:ElasticSearch 异步查询执行重度任务
java·大数据·linux·运维·elasticsearch·搜索引擎·全文检索
喜欢流萤吖~15 小时前
分布式搜索引擎:Elasticsearch 从入门到实战
分布式·elasticsearch·搜索引擎
开开心心_Every16 小时前
安卓免费证件照制作软件,无广告弹窗
linux·运维·服务器·安全·elasticsearch·zookeeper·pdf
承渊政道18 小时前
CentOS 7部署Elasticsearch完整流程:避坑、基础操作、远程访问
java·linux·elasticsearch·系统架构·centos·远程工作·持续部署
阡陌..1 天前
202605新版git_2.54.0常用操作指令
大数据·git·elasticsearch
逸Y 仙X1 天前
文章二十四:Elasticsearch查询排序应用实战e
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
逸Y 仙X2 天前
文章二十五:ElasticSearch 分页查询
java·大数据·数据库·elasticsearch·搜索引擎·全文检索