ES详解-查询:DSL查询之Term详解

Term查询引入

如前文所述,查询分基于文本查询和基于词项的查询:

  1. Term(词项)是ES中表达语义的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理Term, 主要包含的查询类型有:Term Query / Range Query / Exist Query / Prefix Query / Wildcard Query
  • 特点1:在ES中,Term查询对输入不做分词。换句话说,它会将输入作为一个整体,在倒排索引中查找准确的词项,并且使用相关度算分公式为每个包含该词项的文档进行相关度算分 - 例如"Apple Store"。 精确匹配注意是大小完全匹配的。

  • 特点2:可以使用Constant Score将查询转换成一个Filtering,避免算分,并利用缓存,提高性能。

  1. Query 基于全文的查询, 主要包含的查询类型有:Match Query / Match Phrase Query / Query String Query 具有以下的特点:
  • 特点1:索引和搜索时都会进行分词,查询字符串先传到一个合适的分词器,然后生成一个待查询的词项列表。

  • 特点2:查询会对每个词项进行底层的查询,再将结果进行合并,还会为每个文档生成一个算分。

Term查询

本文

字段是否存在: exist

由于多种原因,文档字段的索引值可能不存在:

  • 源JSON中的字段是null[]
  • 该字段已"index" : false在映射中设置
  • 字段值的长度超出ignore_above了映射中的设置
  • 字段值格式错误,并且ignore_malformed已在映射中定义

所以exist表示查找是否存在字段。

id查询: ids

ids 即对id查找, 也就是对 _id 值的聚合查找。

json 复制代码
{
  "query": {
    "ids": {
      "values": [3, 1]
    }
  }
}

前缀:prefix

通过前缀查找某个字段

json 复制代码
{
  "query": {
    "prefix": {
      "name": {
        "value": "Jan"
      }
    }
  }
}

分词匹配:term

前文最常见的根据分词查询

json 复制代码
{
  "query": {
    "term": {
      "programming_languages": "php"
    }
  }
}

多个分词匹配:terms

按照读个分词term匹配,它们是or的关系

bash 复制代码
GET /test-dsl-term-level/_search
{
  "query": {
    "terms": {
      "programming_languages": ["php","c++"]
    }
  }
}

按某个数字字段分词匹配:term set

设计这种方式查询的初衷是用文档中的数字字段动态匹配查询满足term的个数

bash 复制代码
GET /test-dsl-term-level/_search
{
  "query": {
    "terms_set": {
      "programming_languages": {
        "terms": [ "java", "php" ],
        "minimum_should_match_field": "required_matches"
      }
    }
  }
}

通配符:wildcard

通配符匹配,比如*

bash 复制代码
GET /test-dsl-term-level/_search
{
  "query": {
    "wildcard": {
      "name": {
        "value": "D*ai",
        "boost": 1.0,
        "rewrite": "constant_score"
      }
    }
  }
}

范围:range

常常被用在数字或者日期范围的查询

bash 复制代码
GET /test-dsl-term-level/_search
{
  "query": {
    "range": {
      "required_matches": {
        "gte": 3,
        "lte": 4
      }
    }
  }
}

正则:regexp

通过正则表达式查询 以"Jan"开头的name字段

bash 复制代码
GET /test-dsl-term-level/_search
{
  "query": {
    "regexp": {
      "name": {
        "value": "Ja.*",
        "case_insensitive": true
      }
    }
  }
}

模糊匹配:fuzzy

官方文档对模糊匹配:编辑距离是将一个术语转换为另一个术语所需的一个字符更改的次数。这些更改可以包括:

  • 更改字符(box → fox
  • 删除字符(black → lack
  • 插入字符(sic → sick
  • 转置两个相邻字符(act → cat
bash 复制代码
GET /test-dsl-term-level/_search
{
  "query": {
    "fuzzy": {
      "remarks": {
        "value": "hell"
      }
    }
  }
}

本文使用到的查询数据

bash 复制代码
PUT /test-dsl-term-level
{
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword"
      },
      "programming_languages": {
        "type": "keyword"
      },
      "required_matches": {
        "type": "long"
      }
    }
  }
}

POST /test-dsl-term-level/_bulk
{ "index": { "_id": 1 }}
{"name": "Jane Smith", "programming_languages": [ "c++", "java" ], "required_matches": 2}
{ "index": { "_id": 2 }}
{"name": "Jason Response", "programming_languages": [ "java", "php" ], "required_matches": 2}
{ "index": { "_id": 3 }}
{"name": "Dave Pdai", "programming_languages": [ "java", "c++", "php" ], "required_matches": 3, "remarks": "hello world"}
相关推荐
kirito学长-Java1 小时前
springboot/ssm网上宠物店系统Java代码编写web宠物用品商城项目
java·spring boot·后端
海绵波波1071 小时前
flask后端开发(9):ORM模型外键+迁移ORM模型
后端·python·flask
余生H1 小时前
前端Python应用指南(二)深入Flask:理解Flask的应用结构与模块化设计
前端·后端·python·flask·全栈
AI人H哥会Java2 小时前
【Spring】基于XML的Spring容器配置——<bean>标签与属性解析
java·开发语言·spring boot·后端·架构
计算机学长felix2 小时前
基于SpringBoot的“大学生社团活动平台”的设计与实现(源码+数据库+文档+PPT)
数据库·spring boot·后端
sin22012 小时前
springboot数据校验报错
spring boot·后端·python
去哪儿技术沙龙2 小时前
去哪儿机票智能预警系统-雷达系统落地实践
后端
程序员大阳3 小时前
闲谭Scala(1)--简介
开发语言·后端·scala·特点·简介
直裾3 小时前
scala图书借阅系统完整代码
开发语言·后端·scala