es拼音分词器(仅供自己参考)

github地址:https://github.com/infinilabs/analysis-pinyin(各种版本,对接es版本)

拼音分词器存在的问题:

1、是直接将每个字的拼音返回和一段话的拼音首字母返回,不能很好的分词。

2、不会保留中文,转为拼音之后,没有中文存在。

自定义分词器

默认的拼音分词器会将每个汉字单独分为拼音,而我们希望的是每个词条形成一组拼音,需要对拼音分词器做个性化定制,形成自定义分词器。

elasticsearch中分词器(analyzer)的组成包含三部分:

1、 character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符

2、tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword,就是不分词;还有ik_smart

3、tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等

文档分词时会依次由这三部分来处理文档:

自定义分词器的配置:(只能是相应的索引库使用,创建了test索引库,那么自定义的只能在这个索引库中使用。不能在其他索引库中使用)

bash 复制代码
#自定义分词器,在ik和py的基础上自定义
PUT /test
{
  "settings": {
    "analysis": {
      "analyzer": { 
        "my_analyzer": { 
          "tokenizer": "ik_max_word",        #分词用ik
          "filter": "py"            #配置拼音分词器
        }
      },
      "filter": {
        "py": { 
          "type": "pinyin",        #拼音分词器
          "keep_full_pinyin": false,         #   关闭了单个字符的转为拼音
          "keep_joined_full_pinyin": true,    #开启了词语的拼音转换
          "keep_original": true,                #保留中文
          "limit_first_letter_length": 16,        #首字母的长度小于16
          "remove_duplicated_term": true,        #去除重复的
          "none_chinese_pinyin_tokenize": false    #禁止除中文以为的其他语言转为拼音
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "name":{
        "type": "text",
        "analyzer": "my_analyzer",
        "search_analyzer": "ik_smart"
      }
    }
  }
}

为了避免搜索的时候使用拼音搜到同音词,所以在搜索的时候使用ik分词器"search_analyzer": "ik_smart"

相关推荐
zxfBdd6 小时前
Error:scala: No ‘scala-library*.jar‘ in Scala compiler classpath in Scala SDK
大数据·scala·jar
AI猫站长7 小时前
快讯|灵心巧手融资15亿计划2026年交付5-10万台灵巧手,Linker Hand系列覆盖多种技术路线
大数据·人工智能·机器人·具身智能·灵心巧手
清 晨7 小时前
知识产权投诉增多跨境卖家如何构建图片文案证据链
大数据·人工智能·跨境电商·亚马逊·内容营销
汽车仪器仪表相关领域7 小时前
中小型储能/轻型电动车电池管理中枢:BMS-100型电池管理系统 全场景实战全解
大数据·网络·人工智能
xhaoDream7 小时前
Hive3.1.3 配置 Tez 引擎
大数据·hive·tez
Asher05097 小时前
Spark核心基础与架构全解析
大数据·架构·spark
happyboy19862117 小时前
2026 大专大数据专业报考条件是什么?
大数据
yumgpkpm7 小时前
AI视频生成:Wan 2.2(阿里通义万相)在华为昇腾下的部署?
人工智能·hadoop·elasticsearch·zookeeper·flink·kafka·cloudera
创客匠人老蒋8 小时前
创客匠人:2026知识付费“生死局”,AI智能体如何重构“交付”价值?
大数据·人工智能·重构
james的分享8 小时前
大数据领域核心 SQL 优化框架Apache Calcite介绍
大数据·sql·apache·calcite