在Elasticsearch IK分词器中更新、停用某些专有名词

在Elasticsearch IK分词器中更新、停用某些专有名词

目前IK分词器对于现有的新名词或者流行语没有做区分比如"白嫖" "奥利给",或者对一些没有用的字比如 "的" "地"进行分词其实没有必要过多的分词只会占用宝贵的内存空间,所以如何更新或者停用某些字词呢
首先在IK 分词器目录中找到config目录然后找到IkAnalyzer.cfg.xml文件,在里面对文件进行修改
复制代码
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典-->
        <entry key="ext_dict">ext.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典  *** 添加停用词词典-->
        <entry key="ext_stopwords">stopword.dic</entry>
</properties>
ext.dic是IK分词器扩展字词的文件,如果config目录中没有则自己新建一个即可。然后就可以往里面输入 白嫖 奥里给 等等你需要添加的名称,记得每个都要换行
stopword.dic是IK分词器停用某些名词的文件,里面的字词将不在被分词处理,也不会被检索到,合理利用会极大的减少内存空间。

大家好,我是时生,站在巨人的肩膀做出一点点改变。欢迎批评,欢迎指正,欢迎共享,有事私信。

如果这篇文章对你有帮助,麻烦点个赞呗!

相关推荐
2501_91676654几秒前
【Java】HashMap集合实现类
java·开发语言
不会聊天真君6475 分钟前
设计模式、线程状态、上下文切换、线程安全(JAVA并发第二期)
java
Swift社区7 分钟前
死锁:线程卡死不是偶然,而是设计问题
java·spring·maven
uup7 分钟前
防止短信验证码接口被盗刷问题
java
xxxmine14 分钟前
ConcurrentHashMap 和 Hashtable 的区别详解
java·开发语言
凛_Lin~~14 分钟前
安卓 面试八股文整理(原理与性能篇)
android·java·面试·安卓
G皮T18 分钟前
【Elasticsearch】查询性能调优(三):track_total_hits 和 terminate_after 可能的冲突
大数据·elasticsearch·搜索引擎·全文检索·索引·性能·opensearch
weixin_4365250725 分钟前
NestJS-TypeORM QueryBuilder 常用 SQL 写法
java·数据库·sql
oioihoii27 分钟前
C++虚函数表与多重继承内存布局深度剖析
java·jvm·c++
wangchen_040 分钟前
深入理解 C/C++ 强制类型转换:从“暴力”到“优雅”
java·开发语言·jvm