在Elasticsearch IK分词器中更新、停用某些专有名词

在Elasticsearch IK分词器中更新、停用某些专有名词

目前IK分词器对于现有的新名词或者流行语没有做区分比如"白嫖" "奥利给",或者对一些没有用的字比如 "的" "地"进行分词其实没有必要过多的分词只会占用宝贵的内存空间,所以如何更新或者停用某些字词呢
首先在IK 分词器目录中找到config目录然后找到IkAnalyzer.cfg.xml文件,在里面对文件进行修改
复制代码
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stopword.dic</entry>
</properties>
ext.dic是IK分词器扩展字词的文件,如果config目录中没有则自己新建一个即可。然后就可以往里面输入 白嫖 奥里给 等等你需要添加的名称,记得每个都要换行
stopword.dic是IK分词器停用某些名词的文件,里面的字词将不在被分词处理,也不会被检索到,合理利用会极大的减少内存空间。

大家好,我是时生,站在巨人的肩膀做出一点点改变。欢迎批评,欢迎指正,欢迎共享,有事私信。

如果这篇文章对你有帮助,麻烦点个赞呗!

相关推荐
小二·4 分钟前
Elasticsearch 面试题精编(26题|含答案|分类整理)
java·大数据·elasticsearch
BD_Marathon13 分钟前
在 Linux 环境中配置 Eclipse 以开发 Hadoop 应用
java·hadoop·eclipse
草莓熊Lotso26 分钟前
C++ 二叉搜索树(BST)完全指南:从概念原理、核心操作到底层实现
java·运维·开发语言·c++·人工智能·经验分享·c++进阶
oliveira-time35 分钟前
单例模式中的饿汉式
java·开发语言
凌波粒38 分钟前
SpringMVC基础教程(1)--MVC/DispathcerServlet
java·spring·mvc
武子康39 分钟前
Java-173 Neo4j + Spring Boot 实战:从 Driver 到 Repository 的整合与踩坑
java·数据库·spring boot·后端·spring·nosql·neo4j
凌波粒40 分钟前
SpringMVC基础教程(2)--Controller/RestFul风格/JSON/数据转发和重定向
java·后端·spring·json·restful
老鼠只爱大米2 小时前
Java 设计模式之适配器模式:系统集成的万能接口
java·设计模式·适配器模式·adapter·java设计模式
一叶飘零_sweeeet2 小时前
Java+EasyExcel 打造学习平台视频学习时长统计系统
java·报表·easyexcel
Go away, devil2 小时前
Java-----集合
java·开发语言