es 全文文本分词查询

ES 对 TEXT 类型的分词

我们可以使用分词器来查看分词的结果,默认的分词器是 standard 如果是其他的可以指定分词器

shell 复制代码
# 标准的分词
POST _analyze
{
  "text": "Hello World!",
  "analyzer": "standard"
}

全文检索的分词概念

对目标文本做分词,分词以后做倒排索引(inverted-index)支持基于分词查询文档数据,分词的算法有很多,分词的领域也是十分的深入。es 中默认的分词打分算法 TF/IDF=>BM25,ES中的字段只支持 TEXT

ES 全文检索使用

  • match-all 全查询
  • match 标准分词

match-all

使用 match-all 可以查询索引中所有的数据

shell 复制代码
GET mine-of-index-01/_search
{
  "query": {
    "match-all": {}
  }
}

GET mine-of-index-01/_search

# 这两个使用案例的结果是一样的,本质没有任何区别

match

这个会根据分词来查询对应的数据,然后根据评分排序,评分最高的在最前面

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

# 使用指定的分词器对查询的时候的目标文本做分词
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        "analyzer": "standard"
      }
    }
  }
}

# 对分词结果做操作
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        # 默认的是 or,如果是 or 匹配度会很低,可以使用 and 来提交匹配度 
        "operator": "and"
      }
    }
  }
}

# 对于提高匹配度的事情不单单 and 可以也可以使用 or 但是要配合另一个参数来完成功能
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        "operator": "or",
        # 最小分词匹配的数量,这里可以使用 _analyze 来查询有多少分词然后根据自己的业务需求来判别
        "minimum_should_match": 2
      }
    }
  }
}

# 纠错用法,如果我们输入一个单词例如 book,但是我们输入错误,bool,这个时候就不能查询到 book,但是可以使用 es 提供的纠错功能来查询到 book
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "bool",
        # 这里表示可以纠正一个字符
        "fuzziness": 1
      }
    }
  }
}

match_bool_prefix

这里使用前缀匹配模式来查询数据

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_bool_prefix": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

match_phrase

短语匹配,要求 ES 按照目标字符来匹配,不能拆分,词语的顺序也不可以更改

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

# 这个也拥有有一个类似于 match 中 fuzziness 参数的功能,slop
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase": {
      "match_filed": "NEED TERM WORD",
      # 假设 es 中并不存在 need term word 这样的单词,但是存在 NEED TERM HH WORD 这样的,就可以受用 slop 表示中间允许存在一个未知词
      "slop": 1
    }
  }
}

match_phrase_prefix

短语前缀匹配

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase_prefix": {
      "match_filed": "NEED TERM"
    }
  }
}

multi_match

多字段匹配

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "multi_match": {
      "match_filed": {
        "query": "NEED TERM",
        "fields": [
          "field_01", "field_02", "t_field_01"
        ]
      }
    }
  }
}

# 多字段通配符 * 
GET mine-of-index-01/_search
{
  "query": {
    "multi_match": {
      "match_filed": {
        "query": "NEED TERM",
        "fields": [
          # "field_01", "field_02", "t_field_01"
          # 这里就可以使用通配符
          "*field*"
        ]
      }
    }
  }
}

intervals

这个 API 可以做数据的多级匹配,比如满足 A,并且 A 的数据要满足 B,并且 B 执行以后要满足 C,如果需要可以从 ES 官网深入查询他的 DSL API 使用规范。

query_string

这个是早期的的底层的一个语法,可以使用 kql 方式来实现查询,kibana 中的 discover 中可以使用这个语法,可以深入学习一下 KQL,还是很是灵活的

shell 复制代码
GET mine-of-index-01/_search
{
  "query": {
    "query_string": {
      # 这里是要查询 字段:FILED,是 A 或者 B 的数据
      "query": "FIELD: (A or B)"
    }
  }
}

ES 查询性能分析

类似于 SQL 中的 show profiles && show profile ${num},他的分析结果就会在响应体中

shell 复制代码
GET mine-of-index-01/_search
{
  "profile" true,
  "query": {
    "match_all": {}
  }
}
相关推荐
用户199701080183 分钟前
1688图片搜索API | 上传图片秒找同款 | 相似商品精准推荐
大数据·数据挖掘·图片资源
q***697727 分钟前
Y20030018基于Java+Springboot+mysql+jsp+layui的家政服务系统的设计与实现 源代码 文档
java·spring boot·mysql
Elasticsearch33 分钟前
Elastic AI agent builder 介绍(五)- 备份 tools 及 agents
elasticsearch
武子康1 小时前
大数据-164 Apache Kylin Cuboid 剪枝实战:Derived 维度与膨胀率控制
大数据·后端·apache kylin
q***09801 小时前
MySQL 常用 SQL 语句大全
数据库·sql·mysql
后端小张1 小时前
【AI 学习】从0到1深入理解Agent AI智能体:理论与实践融合指南
人工智能·学习·搜索引擎·ai·agent·agi·ai agent
q***49861 小时前
MySQL数据的增删改查(一)
android·javascript·mysql
梦里不知身是客112 小时前
shuffle过程
大数据
星释2 小时前
Rust 练习册 80:Grains与位运算
大数据·算法·rust
练习时长一年3 小时前
git常用命令总结
大数据·git·elasticsearch