Elasticsearch Boolean Query查询介绍

前言

ES 和 Solr 的底层都是基于Apache Lucene 实现,bool 查询的底层实现是Lucene 的 BooleanQuery,其可以组合多个子句查询,类似 SQL 语句里面的 OR 查询。

查询介绍

在 ES 里面 Boolean 查询封装了 4 种 API 接口能力,可以单独使用,也可以组合使用,总结如下:

|----------|-----------------------------------------------------------------------------------|
| 函数 | 描述 |
| must | query 关键词在召回文档里面必须包含,参与相关性评分 |
| filter | query 关键词在召回文档里面必须包含,不参与相关性评分,但结果集会被缓存 |
| should | query 关键词在召回文档里面可能包含,如果只有一个 should 子句情况下与 must 子句结果一样,如果有多个should子句情况下,命中任何一个即可召回 |
| must_not | query 关键词在召回文档里面必须排除,不参与相关性评分,但结果集会被缓存 |

评分介绍

boolean 查询的评分原理是,匹配越多越好,在 must 和 should 子句里面的匹配成功后,最终会将相关性评分累加到 score 里面

查询示例

复制代码
POST _search
{
  "query": {
    "bool" : {
      "must" : {
        "term" : { "user.id" : "kimchy" }
      },
      "filter": {
        "term" : { "tags" : "production" }
      },
      "must_not" : {
        "range" : {
          "age" : { "gte" : 10, "lte" : 20 }
        }
      },
      "should" : [
        { "term" : { "tags" : "env1" } },
        { "term" : { "tags" : "deployed" } }
      ],
      "minimum_should_match" : 1,
      "boost" : 1.0
    }
  }
}

其他参数介绍

minimum_should_match

该参数控制 should 子句召回的文档,其匹配条件应该达到的数量或百分比,如果 bool 查询只有一个 should 子句且没有 must 和 filter 子句的前提下该参数的值为 1,其他情况下为 0

minimum_should_match参数的取值列表:

|------|---------------|-------------------------------------------------------------------------------------------------------------------------------------|
| 类型 | 例子 | 说明 |
| 正整数 | 3 | 固定 3 个,与子句数量无关 |
| 负整数 | -2 | 子句总数 - 2 |
| 百分比 | 75% | 子句总数 * 0.75 后向下取整 |
| 负百分比 | -25% | 子句总数 - (子句总数*0.25 后向下取整) |
| 组合 | 3<90% | 如果子句数量小于等于3,则全部都是必须的,但如果大于 3,则仅需要 90% 子句满足 |
| 多种组合 | 2<-25% 9<-3 | es 支持多种限定条件组合,中间使用空格分隔,每个条件的规范仅在大于前一个的数字有效,在这个例子种,如果子句数量有 1 个或者 2 个,那么两个都是必须的,如果有 3-9 个,则需要除 25%之外的所有子句,如果超过 9 个则需要除 3 个子句之外的所有子句匹配 |

filter

在 filter 中指定查询对相关性评分没有影响,分数返回都是 0,分数仅受指定查询的影响,例如以下的三个查询都会查询指定条件的文档:

filter query 评分为 0,因为没有指定评分查询
复制代码
GET _search
{
  "query": {
    "bool": {
      "filter": {
        "term": {
          "status": "active"
        }
      }
    }
  }
}
bool query 有一个 match_all 查询,所以所有文档的评分都为 1.0
复制代码
GET _search
{
  "query": {
    "bool": {
      "must": {
        "match_all": {}
      },
      "filter": {
        "term": {
          "status": "active"
        }
      }
    }
  }
}
constant_score 与 match_all 类似,分配同样的 1.0 分数
复制代码
GET _search
{
  "query": {
    "constant_score": {
      "filter": {
        "term": {
          "status": "active"
        }
      }
    }
  }
}
named_queries

可以在每个顶级查询中传入一个 _name命名字段,用来跟踪那些查询与返回的文档匹配,如果使用了命名查询,那么返回的结果种则会包含每个命中的 matched_queries 属性

复制代码
GET /_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "name.first": { "query": "shay", "_name": "first" } } },
        { "match": { "name.last": { "query": "banon", "_name": "last" } } }
      ],
      "filter": {
        "terms": {
          "name.last": [ "banon", "kimchy" ],
          "_name": "test"
        }
      }
    }
  }
}

此外在请求中还可以传入一个 include_named_queries_score 参数,可以控制是否返回与匹配查询关联的分数,这里需要注意 在 filter 中的查询,在 must_not上下文种的查询,以及出现在 constant_score 或 function_score_query内查询的分数,不会对文档总分数产生影响

复制代码
GET /_search?include_named_queries_score
{
  "query": {
    "bool": {
      "should": [
        { "match": { "name.first": { "query": "shay", "_name": "first" } } },
        { "match": { "name.last": { "query": "banon", "_name": "last" } } }
      ],
      "filter": {
        "terms": {
          "name.last": [ "banon", "kimchy" ],
          "_name": "test"
        }
      }
    }
  }
}

此外,命名查询会对查询性能造成一定影响,在 hits 命中量大的时候会更明显,应谨慎使用

相关推荐
人工智能培训29 分钟前
打造行业知识图谱三步走
大数据·人工智能·机器学习·3d·知识图谱·agent
信徒_1 小时前
做市商概念
大数据·区块链
电商API_180079052471 小时前
免 TOP 入驻,第三方淘宝商品详情 API 快速接入与代码示例
java·大数据·开发语言·数据库·爬虫·数据分析
succtent1 小时前
行业科普|FSC森林认证全解析:标准体系、标签分类、审核流程与行业价值
大数据·人工智能·产品运营
闻道参看1 小时前
2026企业GEO选型指南:主流AI优化服务商对比
大数据·人工智能
Elastic 中国社区官方博客2 小时前
13.7万人,零人工决策:使用 Elasticsearch 实现智能体驱动的灾害响应系统
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
明航咨询—张老师2 小时前
AI工具狂飙时代:三款实用AI产品深度横向测评
大数据·人工智能·算法·it
二等饼干~za8986682 小时前
2026 主流 GEO 优化源码厂商横向测评:云罗 GEO / 摘星智能 / 棋引科技技术、部署、性价比全维度对比
大数据·人工智能·科技
志栋智能2 小时前
超自动化巡检:在混合云时代更显其必要性
大数据·运维·网络·人工智能·自动化
招标采购导航网3 小时前
招标采购导航网的召回通道设计:为什么同时用协同过滤、向量召回、规则召回三种策略
大数据·人工智能