ElasticSearch之单值多字段查询以及dis max query

写在前面

在查询中经常有这样的查询场景,我们只有一个输入框,但是输入的值需要同时对多个字段进行查询,这就是单值多字段的查询,像下图:

1:例子

首先来准备测试数据:

复制代码
DELETE blogs
PUT /blogs/_doc/1
{
  "title": "Quick brown rabbits",
  "body": "Brown rabbits are commonly seen."
}

PUT /blogs/_doc/2
{
  "title": "Keeping pets healthy",
  "body": "My quick brown fox eats rabbits on a regular basis"
}

假定我们现在搜索brown fox,查询在title或者是body中包含其的文档,很明显我们需要使用should查询:

复制代码
POST /blogs/_search
{
    "query": {
        "bool": {
            "should": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

如图中结果,在文档2的body中存在完全匹配brown fox的内容,按照常理,其应该具有最高的分数,即在最靠前的位置,但事实并非如此,出现这种现象的原因是should查询的算分机制如下:

则文档1的算分过程如下:

复制代码
1:title中包含brown,假定给0.3分,body中包含brown给0.3分,则总分0.6分
2:匹配的文档数是2,所以得分0.6*2=1.2分
3:总文档数2,所以最终得分1.2/2=0.6分

文档2的算分过程如下:

复制代码
1:title中不匹配给0分,body中包含brown和fox给0.9分,则总分0.9分
2:匹配的文档数是1,所以得分0.9*1=0.9分
3:总文档数2,所以最终得分0.9/2=0.45分

所以文档1的最终得分就比文档2的高了。如何解决没有匹配到理想的结果这个问题呢,如果是我们将算分机制从sum变为max就能很轻松的解决这个问题了,这就需要用到disjunction max query,这种查询方式会取所有匹配的最高分作为该文档的最终得分,如下:

复制代码
POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

接着我们在来看如下的查询:

复制代码
POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "quick pets"
                    }
                },
                {
                    "match": {
                        "body": "quick pets"
                    }
                }
            ]
        }
    }
}

查询quick pet,按照dis_max的查询逻辑,文档1和2将会得到相同的分数,结果也确实是如此:

此时情况又不太一样,在文档1的title中包含quick,而body不匹配,但文档2,title中包含pets,body中包含quick,所以应该给文档2更高的分数才符合常理,此时又该怎么做呢?其实在dis_max中是有一个tie_break参数的,如下:

该参数的作用是与非最高分的匹配项的分数相乘,然后再和最高分加在一起作为文档的最终得分,也就是文档最高分+非最高分1*tie_breaker+非最高分2*tie_breaker,当不指定时,es可能按照该值为0处理,或者时干脆就不考虑该参数了,反正不指定tie_breaker时的效果就是取最高分作为文档最终得分,那么咱们这里的情况,只需要指定一个合适的tie_breaker的值就行了,如下:

实际的业务场景中,我们需要使用不同的查询方式并灵活调整参数,来满足不同的业务需求。

写在后面

参考文章列表

相关推荐
大志哥1232 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
TableRow2 天前
参数化搜索的实现原理:从多维索引到查询优化
elasticsearch·全文检索
醉颜凉2 天前
Elasticsearch高性能优化:Bulk API大规模数据导入性能调优全攻略
elasticsearch·性能优化·jenkins
Ysouy2 天前
Spring Data Elasticsearch 全流程学习教程
java·spring·elasticsearch
沪飘大军2 天前
goldRush-专门分析黄金的投资理财agent
java·开发语言·elasticsearch
让学习成为一种生活方式2 天前
samblaster v.0.1.26安装与使用--生信工具096
大数据·elasticsearch·搜索引擎
小马爱打代码2 天前
Elasticsearch 容器化部署(单机版):从零搭建你的搜索和分析引擎
elasticsearch
西敏寺的乐章2 天前
排序三阶段:粗排→精排→重排,把业务信号灌进 ES 排序管道
elasticsearch·搜索引擎
小马爱打代码2 天前
Elasticsearch 集群容器化部署:构建 PB 级搜索与分析平台
大数据·elasticsearch·搜索引擎
二哈赛车手3 天前
新人笔记---idea索引失效问题解决方案
java·笔记·spring·elasticsearch·intellij-idea