elasticsearch分词器详解

分词器

简介

ES文档的数据拆分成一个个有完整含义的关键词,并将关键词与文档对应,这样就可以通过关键词查询文档

要想正确的分词,需要选择合适的分词器

默认分词器

简介

根据空格和标点符号对英文进行分词,会进行单词的大小写转换

默认分词器是英文分词器,对中文的分词是一字一词

基本使用

复制代码
GET /_analyze

{
  "text": "月木天上",
  "analyzer": "standard"
}          

IK分词器

简介

IK分词器提供了两种分词算法:

ik_smart:最少切分

ik_max_word:最细粒度划分

IK分词器词典

IK分词器根据词典进行分词,词典文件在IK分词器的config目录中:

main.dic:IK中内置的词典。记录了IK统计的所有中文单词

IKAnalyzer.cfg.xml:用于配置自定义词库

基本使用

复制代码
GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_smart"
}


GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_max_word"
}  

拼音分词器

简介

拼音分词器可以将中文分成对应的全拼,全拼首字母等

基本使用

复制代码
GET /_analyze
{
  "text":"月木天上",
  "analyzer":"pinyin"
}

自定义分词器

简介

真实开发中我们往往需要对一段内容既进行文字分词,又进行拼音分词,此时我们需要自定义ik+pinyin分词器

在创建索引时自定义分词器

复制代码
PUT /索引名
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "ik_pinyin" : { //自定义分词器名
          "tokenizer":"ik_max_word", // 基本分词器
          "filter":"pinyin_filter" // 配置分词器过滤
        }
      },
      "filter" : { // 分词器过滤时配置另一个分词器,相当于同时使用两个分词器
        "pinyin_filter" : {
          "type" : "pinyin", // 另一个分词器
          // 拼音分词器的配置
          "keep_separate_first_letter" : false, // 是否分词每个字的首字母
          "keep_full_pinyin" : true, // 是否分词全拼
          "keep_original" : true, // 是否保留原始输入
          "remove_duplicated_term" : true // 是否删除重复项
        }
      }
    }
  },
  "mappings":{
    "properties":{
      "域名1":{
        "type":域的类型,
        "store":是否单独存储,
        "index":是否创建索引,
        "analyzer":分词器
      },
      "域名2":{
        ...
      }
    }
  }
}
相关推荐
TDengine (老段)8 小时前
TDengine 数学函数 DEGRESS 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine
TDengine (老段)8 小时前
TDengine 数学函数 GREATEST 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
失散139 小时前
分布式专题——47 ElasticSearch搜索相关性详解
java·分布式·elasticsearch·架构
字节数据平台9 小时前
火山引擎Data Agent再拓新场景,重磅推出用户研究Agent
大数据·人工智能·火山引擎
偶尔的鼠标人10 小时前
Avalonia DataGrid 控件的LostFocus事件会多次触发
开发语言·c#
ytttr87310 小时前
C# 仿QQ聊天功能实现 (SQL Server数据库)
数据库·oracle·c#
铭毅天下12 小时前
Elasticsearch 到 Easysearch 数据迁移 5 种方案选型实战总结
大数据·elasticsearch·搜索引擎·全文检索
future_studio12 小时前
聊聊 Unity(小白专享、C# 小程序 之 图片播放器)
unity·小程序·c#
跨境小新12 小时前
Facebook广告投放:地域定向流量不精准?x个优化指南
大数据·facebook
ZKNOW甄知科技13 小时前
客户案例 | 派克新材x甄知科技,构建全场景智能IT运维体系
大数据·运维·人工智能·科技·低代码·微服务·制造