ElasticSearch之单值多字段查询以及dis max query

写在前面

在查询中经常有这样的查询场景,我们只有一个输入框,但是输入的值需要同时对多个字段进行查询,这就是单值多字段的查询,像下图:

1:例子

首先来准备测试数据:

复制代码
DELETE blogs
PUT /blogs/_doc/1
{
  "title": "Quick brown rabbits",
  "body": "Brown rabbits are commonly seen."
}

PUT /blogs/_doc/2
{
  "title": "Keeping pets healthy",
  "body": "My quick brown fox eats rabbits on a regular basis"
}

假定我们现在搜索brown fox,查询在title或者是body中包含其的文档,很明显我们需要使用should查询:

复制代码
POST /blogs/_search
{
    "query": {
        "bool": {
            "should": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

如图中结果,在文档2的body中存在完全匹配brown fox的内容,按照常理,其应该具有最高的分数,即在最靠前的位置,但事实并非如此,出现这种现象的原因是should查询的算分机制如下:

则文档1的算分过程如下:

复制代码
1:title中包含brown,假定给0.3分,body中包含brown给0.3分,则总分0.6分
2:匹配的文档数是2,所以得分0.6*2=1.2分
3:总文档数2,所以最终得分1.2/2=0.6分

文档2的算分过程如下:

复制代码
1:title中不匹配给0分,body中包含brown和fox给0.9分,则总分0.9分
2:匹配的文档数是1,所以得分0.9*1=0.9分
3:总文档数2,所以最终得分0.9/2=0.45分

所以文档1的最终得分就比文档2的高了。如何解决没有匹配到理想的结果这个问题呢,如果是我们将算分机制从sum变为max就能很轻松的解决这个问题了,这就需要用到disjunction max query,这种查询方式会取所有匹配的最高分作为该文档的最终得分,如下:

复制代码
POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "Brown fox"
                    }
                },
                {
                    "match": {
                        "body": "Brown fox"
                    }
                }
            ]
        }
    }
}

接着我们在来看如下的查询:

复制代码
POST /blogs/_search
{
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match": {
                        "title": "quick pets"
                    }
                },
                {
                    "match": {
                        "body": "quick pets"
                    }
                }
            ]
        }
    }
}

查询quick pet,按照dis_max的查询逻辑,文档1和2将会得到相同的分数,结果也确实是如此:

此时情况又不太一样,在文档1的title中包含quick,而body不匹配,但文档2,title中包含pets,body中包含quick,所以应该给文档2更高的分数才符合常理,此时又该怎么做呢?其实在dis_max中是有一个tie_break参数的,如下:

该参数的作用是与非最高分的匹配项的分数相乘,然后再和最高分加在一起作为文档的最终得分,也就是文档最高分+非最高分1*tie_breaker+非最高分2*tie_breaker,当不指定时,es可能按照该值为0处理,或者时干脆就不考虑该参数了,反正不指定tie_breaker时的效果就是取最高分作为文档最终得分,那么咱们这里的情况,只需要指定一个合适的tie_breaker的值就行了,如下:

实际的业务场景中,我们需要使用不同的查询方式并灵活调整参数,来满足不同的业务需求。

写在后面

参考文章列表

相关推荐
在未来等你10 小时前
Elasticsearch面试精讲 Day 17:查询性能调优实践
大数据·分布式·elasticsearch·搜索引擎·面试
在未来等你1 天前
Elasticsearch面试精讲 Day 18:内存管理与JVM调优
大数据·分布式·elasticsearch·搜索引擎·面试
Elasticsearch1 天前
在 Elastic Observability 中使用 Discover 的追踪获取更深入的应用洞察
elasticsearch
婲落ヽ紅顏誶1 天前
测试es向量检索
大数据·elasticsearch·搜索引擎
咖啡Beans1 天前
Docker安装ELK(Elasticsearch + Logstash + Kibana)
后端·elasticsearch·docker
一勺菠萝丶1 天前
Jenkins 构建 Node 项目报错解析与解决——pnpm lockfile 问题实战
elasticsearch·servlet·jenkins
小花鱼20252 天前
Elasticsearch (ES)相关
大数据·elasticsearch
阿里嘎多哈基米2 天前
ES——(三)DSL高级查询
elasticsearch·搜索引擎·全文检索·kibana·倒排索引
AAA修煤气灶刘哥2 天前
ES 高级玩法大揭秘:从算分骚操作到深度分页踩坑,后端 er 速进!
java·后端·elasticsearch
island13142 天前
【C++框架#5】Elasticsearch 安装和使用
开发语言·c++·elasticsearch