es 全文文本分词查询

ES 对 TEXT 类型的分词

我们可以使用分词器来查看分词的结果,默认的分词器是 standard 如果是其他的可以指定分词器

shell 复制代码
# 标准的分词
POST _analyze
{
  "text": "Hello World!",
  "analyzer": "standard"
}

全文检索的分词概念

对目标文本做分词,分词以后做倒排索引(inverted-index)支持基于分词查询文档数据,分词的算法有很多,分词的领域也是十分的深入。es 中默认的分词打分算法 TF/IDF=>BM25,ES中的字段只支持 TEXT

ES 全文检索使用

  • match-all 全查询
  • match 标准分词

match-all

使用 match-all 可以查询索引中所有的数据

shell 复制代码
GET mine-of-index-01/_search
{
  "query": {
    "match-all": {}
  }
}

GET mine-of-index-01/_search

# 这两个使用案例的结果是一样的,本质没有任何区别

match

这个会根据分词来查询对应的数据,然后根据评分排序,评分最高的在最前面

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

# 使用指定的分词器对查询的时候的目标文本做分词
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        "analyzer": "standard"
      }
    }
  }
}

# 对分词结果做操作
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        # 默认的是 or,如果是 or 匹配度会很低,可以使用 and 来提交匹配度 
        "operator": "and"
      }
    }
  }
}

# 对于提高匹配度的事情不单单 and 可以也可以使用 or 但是要配合另一个参数来完成功能
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "NEED TERM WORD",
        "operator": "or",
        # 最小分词匹配的数量,这里可以使用 _analyze 来查询有多少分词然后根据自己的业务需求来判别
        "minimum_should_match": 2
      }
    }
  }
}

# 纠错用法,如果我们输入一个单词例如 book,但是我们输入错误,bool,这个时候就不能查询到 book,但是可以使用 es 提供的纠错功能来查询到 book
GET mine-of-index-01/_search
{
  "query": {
    "match": {
      "match_filed": {
        "query": "bool",
        # 这里表示可以纠正一个字符
        "fuzziness": 1
      }
    }
  }
}

match_bool_prefix

这里使用前缀匹配模式来查询数据

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_bool_prefix": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

match_phrase

短语匹配,要求 ES 按照目标字符来匹配,不能拆分,词语的顺序也不可以更改

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase": {
      "match_filed": "NEED TERM WORD"
    }
  }
}

# 这个也拥有有一个类似于 match 中 fuzziness 参数的功能,slop
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase": {
      "match_filed": "NEED TERM WORD",
      # 假设 es 中并不存在 need term word 这样的单词,但是存在 NEED TERM HH WORD 这样的,就可以受用 slop 表示中间允许存在一个未知词
      "slop": 1
    }
  }
}

match_phrase_prefix

短语前缀匹配

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "match_phrase_prefix": {
      "match_filed": "NEED TERM"
    }
  }
}

multi_match

多字段匹配

shell 复制代码
# 默认的全文检索
GET mine-of-index-01/_search
{
  "query": {
    "multi_match": {
      "match_filed": {
        "query": "NEED TERM",
        "fields": [
          "field_01", "field_02", "t_field_01"
        ]
      }
    }
  }
}

# 多字段通配符 * 
GET mine-of-index-01/_search
{
  "query": {
    "multi_match": {
      "match_filed": {
        "query": "NEED TERM",
        "fields": [
          # "field_01", "field_02", "t_field_01"
          # 这里就可以使用通配符
          "*field*"
        ]
      }
    }
  }
}

intervals

这个 API 可以做数据的多级匹配,比如满足 A,并且 A 的数据要满足 B,并且 B 执行以后要满足 C,如果需要可以从 ES 官网深入查询他的 DSL API 使用规范。

query_string

这个是早期的的底层的一个语法,可以使用 kql 方式来实现查询,kibana 中的 discover 中可以使用这个语法,可以深入学习一下 KQL,还是很是灵活的

shell 复制代码
GET mine-of-index-01/_search
{
  "query": {
    "query_string": {
      # 这里是要查询 字段:FILED,是 A 或者 B 的数据
      "query": "FIELD: (A or B)"
    }
  }
}

ES 查询性能分析

类似于 SQL 中的 show profiles && show profile ${num},他的分析结果就会在响应体中

shell 复制代码
GET mine-of-index-01/_search
{
  "profile" true,
  "query": {
    "match_all": {}
  }
}
相关推荐
尽兴-7 分钟前
SQL 执行失败如何回滚?事务已提交还能恢复吗?——MySQL 误操作数据恢复全指南
sql·mysql·binlog·undolog·redolog
JZC_xiaozhong16 分钟前
主数据同步失效引发的业务风险与集成架构治理
大数据·架构·数据一致性·mdm·主数据管理·数据孤岛解决方案·数据集成与应用集成
heze0922 分钟前
sqli-labs-Less-6自动化注入方法
mysql·网络安全·自动化
T062051426 分钟前
【数据集】全国各地区教育139个相关指标数据集(2000-2024年)
大数据
heze0928 分钟前
sqli-labs-Less-8自动化注入方法
mysql·网络安全·自动化
Dragon~Snow40 分钟前
Linux-centOS Stream 9 系统 mysql-8.4.7 RPM版本
linux·mysql·centos
故乡de云41 分钟前
Vertex AI 企业账号体系,Google Cloud 才能完整支撑
大数据·人工智能
汽车仪器仪表相关领域1 小时前
AI赋能智能检测,引领灯光检测新高度——NHD-6109智能全自动远近光检测仪项目实战分享
大数据·人工智能·功能测试·机器学习·汽车·可用性测试·安全性测试
木头程序员1 小时前
大模型边缘部署突破:动态推理技术与精度-延迟-能耗帕累托优化
大数据·人工智能·计算机视觉·自然语言处理·智能手机·数据挖掘
DX_水位流量监测1 小时前
无人机测流之雷达流速仪监测技术分析
大数据·网络·人工智能·数据分析·自动化·无人机