elasticsearch分词器详解

分词器

简介

ES文档的数据拆分成一个个有完整含义的关键词,并将关键词与文档对应,这样就可以通过关键词查询文档

要想正确的分词,需要选择合适的分词器

默认分词器

简介

根据空格和标点符号对英文进行分词,会进行单词的大小写转换

默认分词器是英文分词器,对中文的分词是一字一词

基本使用

复制代码
GET /_analyze

{
  "text": "月木天上",
  "analyzer": "standard"
}          

IK分词器

简介

IK分词器提供了两种分词算法:

ik_smart:最少切分

ik_max_word:最细粒度划分

IK分词器词典

IK分词器根据词典进行分词,词典文件在IK分词器的config目录中:

main.dic:IK中内置的词典。记录了IK统计的所有中文单词

IKAnalyzer.cfg.xml:用于配置自定义词库

基本使用

复制代码
GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_smart"
}


GET /_analyze
{
  "text":"月木天上",
  "analyzer":"ik_max_word"
}  

拼音分词器

简介

拼音分词器可以将中文分成对应的全拼,全拼首字母等

基本使用

复制代码
GET /_analyze
{
  "text":"月木天上",
  "analyzer":"pinyin"
}

自定义分词器

简介

真实开发中我们往往需要对一段内容既进行文字分词,又进行拼音分词,此时我们需要自定义ik+pinyin分词器

在创建索引时自定义分词器

复制代码
PUT /索引名
{
  "settings" : {
    "analysis" : {
      "analyzer" : {
        "ik_pinyin" : { //自定义分词器名
          "tokenizer":"ik_max_word", // 基本分词器
          "filter":"pinyin_filter" // 配置分词器过滤
        }
      },
      "filter" : { // 分词器过滤时配置另一个分词器,相当于同时使用两个分词器
        "pinyin_filter" : {
          "type" : "pinyin", // 另一个分词器
          // 拼音分词器的配置
          "keep_separate_first_letter" : false, // 是否分词每个字的首字母
          "keep_full_pinyin" : true, // 是否分词全拼
          "keep_original" : true, // 是否保留原始输入
          "remove_duplicated_term" : true // 是否删除重复项
        }
      }
    }
  },
  "mappings":{
    "properties":{
      "域名1":{
        "type":域的类型,
        "store":是否单独存储,
        "index":是否创建索引,
        "analyzer":分词器
      },
      "域名2":{
        ...
      }
    }
  }
}
相关推荐
maomi_952621 分钟前
MySQL 在 CentOS 7 环境下的安装教程
大数据·数据库·mysql
炒空心菜菜21 分钟前
Spark 配置 YARN 模式
大数据·spark·yarn
全栈小526 分钟前
【C#】.net core6.0无法访问到控制器方法,直接404。由于自己的不仔细,出现个低级错误,这让DeepSeek看出来了,是什么错误呢,来瞧瞧
开发语言·c#·.netcore
凯子坚持 c1 小时前
从 0 到 1:ComfyUI AI 工作流抠图构建全实践
大数据·人工智能
浅陌sss7 小时前
C#中实现XML解析器
xml·c#
weixin_549808369 小时前
以运营为核心的智能劳动力管理系统,破解连锁零售、制造业排班难题
大数据·人工智能·零售
全栈师10 小时前
C#中分组循环的做法
开发语言·c#
FAREWELL0007510 小时前
C#进阶学习(十六)C#中的迭代器
开发语言·学习·c#·迭代器模式·迭代器
SunTecTec10 小时前
Flink Docker Application Mode 命令解析 - 修改命令以启用 Web UI
大数据·前端·docker·flink
DXM052110 小时前
牟乃夏《ArcGIS Engine地理信息系统开发教程》学习笔记3-地图基本操作与实战案例
开发语言·笔记·学习·arcgis·c#·ae·arcgis engine