ElasticSearch之单值多字段查询以及dis max query

写在前面

在查询中经常有这样的查询场景,我们只有一个输入框,但是输入的值需要同时对多个字段进行查询,这就是单值多字段的查询,像下图:

1:例子

首先来准备测试数据:

复制代码
DELETE blogs
PUT /blogs/_doc/1
{
  "title": "Quick brown rabbits",
  "body": "Brown rabbits are commonly seen."
}

PUT /blogs/_doc/2
{
  "title": "Keeping pets healthy",
  "body": "My quick brown fox eats rabbits on a regular basis"
}

假定我们现在搜索brown fox,查询在title或者是body中包含其的文档,很明显我们需要使用should查询:

复制代码
POST /blogs/_search
{
    "query": {
        "bool": {
            "should": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

如图中结果,在文档2的body中存在完全匹配brown fox的内容,按照常理,其应该具有最高的分数,即在最靠前的位置,但事实并非如此,出现这种现象的原因是should查询的算分机制如下:

则文档1的算分过程如下:

复制代码
1:title中包含brown,假定给0.3分,body中包含brown给0.3分,则总分0.6分
2:匹配的文档数是2,所以得分0.6*2=1.2分
3:总文档数2,所以最终得分1.2/2=0.6分

文档2的算分过程如下:

复制代码
1:title中不匹配给0分,body中包含brown和fox给0.9分,则总分0.9分
2:匹配的文档数是1,所以得分0.9*1=0.9分
3:总文档数2,所以最终得分0.9/2=0.45分

所以文档1的最终得分就比文档2的高了。如何解决没有匹配到理想的结果这个问题呢,如果是我们将算分机制从sum变为max就能很轻松的解决这个问题了,这就需要用到disjunction max query,这种查询方式会取所有匹配的最高分作为该文档的最终得分,如下:

复制代码
POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

接着我们在来看如下的查询:

复制代码
POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "quick pets"
                    }
                },
                {
                    "match": {
                        "body": "quick pets"
                    }
                }
            ]
        }
    }
}

查询quick pet,按照dis_max的查询逻辑,文档1和2将会得到相同的分数,结果也确实是如此:

此时情况又不太一样,在文档1的title中包含quick,而body不匹配,但文档2,title中包含pets,body中包含quick,所以应该给文档2更高的分数才符合常理,此时又该怎么做呢?其实在dis_max中是有一个tie_break参数的,如下:

该参数的作用是与非最高分的匹配项的分数相乘,然后再和最高分加在一起作为文档的最终得分,也就是文档最高分+非最高分1*tie_breaker+非最高分2*tie_breaker,当不指定时,es可能按照该值为0处理,或者时干脆就不考虑该参数了,反正不指定tie_breaker时的效果就是取最高分作为文档最终得分,那么咱们这里的情况,只需要指定一个合适的tie_breaker的值就行了,如下:

实际的业务场景中,我们需要使用不同的查询方式并灵活调整参数,来满足不同的业务需求。

写在后面

参考文章列表

相关推荐
努力的小郑3 小时前
与产品经理的“模糊”对决:Elasticsearch实现MySQL LIKE '%xxx%' 的奇幻之旅
后端·elasticsearch·搜索引擎
秋已杰爱14 小时前
技术准备十五:Elasticsearch
大数据·elasticsearch·搜索引擎
starandsea1 天前
gitlab解决传过大文件后删除导致pack过大问题
大数据·elasticsearch·gitlab
大海绵啤酒肚1 天前
EL(F)K日志分析系统
运维·elasticsearch·云计算
Elasticsearch1 天前
如何在 AWS EC2 上安装和配置 Elasticsearch
elasticsearch
Elasticsearch2 天前
Elastic AI agent builder 介绍(二)
elasticsearch
维尔切2 天前
ELK日志系统部署与使用(Elasticsearch、Logstash、Kibana)
elk·elasticsearch·jenkins·kibana·logstash
帅帅梓2 天前
ELK es+logstash
大数据·elk·elasticsearch