es 全文文本分词查询

ES 对 TEXT 类型的分词

我们可以使用分词器来查看分词的结果,默认的分词器是 standard 如果是其他的可以指定分词器

shell 复制代码
# 标准的分词
POST _analyze
{
  "text": "Hello World!",
  "analyzer": "standard"
}

全文检索的分词概念

对目标文本做分词,分词以后做倒排索引(inverted-index)支持基于分词查询文档数据,分词的算法有很多,分词的领域也是十分的深入。es 中默认的分词打分算法 TF/IDF=>BM25,ES中的字段只支持 TEXT

ES 全文检索使用

  • match-all 全查询
  • match 标准分词

match-all

使用 match-all 可以查询索引中所有的数据

shell 复制代码
GET mine-of-index-01/_search
{
  "query": {
    "match-all": {}
  }
}

GET mine-of-index-01/_search

# 这两个使用案例的结果是一样的,本质没有任何区别

match

这个会根据分词来查询对应的数据,然后根据评分排序,评分最高的在最前面

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

# 使用指定的分词器对查询的时候的目标文本做分词
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        "analyzer": "standard"
      }
    }
  }
}

# 对分词结果做操作
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        # 默认的是 or,如果是 or 匹配度会很低,可以使用 and 来提交匹配度 
        "operator": "and"
      }
    }
  }
}

# 对于提高匹配度的事情不单单 and 可以也可以使用 or 但是要配合另一个参数来完成功能
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        "operator": "or",
        # 最小分词匹配的数量,这里可以使用 _analyze 来查询有多少分词然后根据自己的业务需求来判别
        "minimum_should_match": 2
      }
    }
  }
}

# 纠错用法,如果我们输入一个单词例如 book,但是我们输入错误,bool,这个时候就不能查询到 book,但是可以使用 es 提供的纠错功能来查询到 book
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "bool",
        # 这里表示可以纠正一个字符
        "fuzziness": 1
      }
    }
  }
}

match_bool_prefix

这里使用前缀匹配模式来查询数据

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_bool_prefix": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

match_phrase

短语匹配,要求 ES 按照目标字符来匹配,不能拆分,词语的顺序也不可以更改

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

# 这个也拥有有一个类似于 match 中 fuzziness 参数的功能,slop
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase": {
      "match_filed": "NEED TERM WORD",
      # 假设 es 中并不存在 need term word 这样的单词,但是存在 NEED TERM HH WORD 这样的,就可以受用 slop 表示中间允许存在一个未知词
      "slop": 1
    }
  }
}

match_phrase_prefix

短语前缀匹配

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase_prefix": {
      "match_filed": "NEED TERM"
    }
  }
}

multi_match

多字段匹配

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "multi_match": {
      "match_filed": {
        "query": "NEED TERM",
        "fields": [
          "field_01", "field_02", "t_field_01"
        ]
      }
    }
  }
}

# 多字段通配符 * 
GET mine-of-index-01/_search
{
  "query": {
    "multi_match": {
      "match_filed": {
        "query": "NEED TERM",
        "fields": [
          # "field_01", "field_02", "t_field_01"
          # 这里就可以使用通配符
          "*field*"
        ]
      }
    }
  }
}

intervals

这个 API 可以做数据的多级匹配,比如满足 A,并且 A 的数据要满足 B,并且 B 执行以后要满足 C,如果需要可以从 ES 官网深入查询他的 DSL API 使用规范。

query_string

这个是早期的的底层的一个语法,可以使用 kql 方式来实现查询,kibana 中的 discover 中可以使用这个语法,可以深入学习一下 KQL,还是很是灵活的

shell 复制代码
GET mine-of-index-01/_search
{
  "query": {
    "query_string": {
      # 这里是要查询 字段:FILED,是 A 或者 B 的数据
      "query": "FIELD: (A or B)"
    }
  }
}

ES 查询性能分析

类似于 SQL 中的 show profiles && show profile ${num},他的分析结果就会在响应体中

shell 复制代码
GET mine-of-index-01/_search
{
  "profile" true,
  "query": {
    "match_all": {}
  }
}
相关推荐
@小红花3 小时前
MySQL数据库从0到1
数据库·mysql·oracle
[听得时光枕水眠]3 小时前
MySQL基础(三)DQL(Data Query Language,数据查询语言)
数据库·mysql·oracle
咸鱼求放生5 小时前
es在Linux安装
大数据·elasticsearch·搜索引擎
xyhshen6 小时前
k8s下离线搭建elasticsearch
elasticsearch·容器·kubernetes
人大博士的交易之路6 小时前
今日行情明日机会——20250606
大数据·数学建模·数据挖掘·数据分析·涨停回马枪
神奇侠20247 小时前
Hive SQL常见操作
hive·hadoop·sql
一只叫煤球的猫7 小时前
MySQL 8.0 SQL优化黑科技,面试官都不一定知道!
后端·sql·mysql
寒山李白7 小时前
MySQL安装与配置详细讲解
数据库·mysql·配置安装
Leo.yuan9 小时前
数据库同步是什么意思?数据库架构有哪些?
大数据·数据库·oracle·数据分析·数据库架构