es-ik分词器的拓展和停用字典

目录

一、分词器


一、分词器

  • 分词器的作用是什么?

创建倒排索引时对文档分词

用户搜索时,对输入的内容分词

  • IK分词器有几种模式?

ik_smart:智能切分,粗粒度

ik_max_word:最细切分,细粒度

  • IK分词器如何拓展词条?如何停用词条?

利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典

在词典中添加拓展词条或者停用词条

ik分词器-拓展词库

要拓展ik分词器的词库,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfq.xml文件

<?xml version="1." encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

<comment>IK Analyzer 扩展配置</comment>

<!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典-->

<entry key="ext_dict">ext.dic</entry>

</properties>

ik分词器-停用词库

要禁用某些敏感词条,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfq.xml文件

<?xml version="1." encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://javasun.com/dtd/properties.dtd">

<properties>

<comment>IK Analyzer 扩展配置</comment>

<!--用户可以在这里配置自己的扩展字典-->

<entry key="ext_dict">ext.dic</entry>

<!--用户可以在这里配置自己的扩展停止词字典 *** 添加停用词词典-->

<entry key="ext_stopwords">stopword.dic</entry>

</properties>

二、分词器字典的扩展与停用

2.1 打开IkAnalyzer.cfq.xml文件

添加扩展词字典、停止词字典

2.2 在同级目录下新建 ext.dic 文件(扩展词)
2.3 在同级目录下找到 stopword.dic 文件(禁用词)并编辑,用于禁用分词
2.4 重启即可完成
相关推荐
Hello.Reader17 分钟前
Kafka 设计与实现动机、持久化、效率、生产者/消费者、事务、复制、日志压缩与配额
分布式·kafka
失散131 小时前
分布式专题——5 大厂Redis高并发缓存架构实战与性能优化
java·redis·分布式·缓存·架构
鸿乃江边鸟1 小时前
Flink中的 BinaryRowData 以及大小端
大数据·sql·flink
a_blue_ice1 小时前
JAVA 面试 MySQL
java·mysql·面试
MicroTech20252 小时前
微算法科技(NASDAQ: MLGO)采用量子相位估计(QPE)方法,增强量子神经网络训练
大数据·算法·量子计算
b***25112 小时前
深圳比斯特|多维度分选:圆柱电池品质管控的自动化解决方案
大数据·人工智能
Flink_China2 小时前
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
大数据·flink
jiedaodezhuti4 小时前
Flink Checkpoint失败问题分析与解决方案
大数据·flink
小橘快跑4 小时前
动态控制rabbitmq中的消费者监听的启动和停止
分布式·rabbitmq
海豚调度4 小时前
(二)一文读懂数仓设计的核心规范:从层次、类型到生命周期
大数据·数仓·技术规范