6.IK分词器拓展词库

比如一些行业专业词汇、简单无意义词(例如:的、得、地、是等)、网络流行词、后来形成的词、再或者一些禁忌词(比如:领导人的名字、黄赌毒犯罪等词要排除的)

在es的插件目录下查找配置文件:

找到IKAnalyzer.cfg.xml文件并进行修改:

向stopword.dic文件中添加如下词:

以上修改完成后,需要重启ES。

注意:创建ext.dic文件时候,注意文件的编码格式,最好拷贝 IKAnalyzer.cfg.xml文件进行修改。

使用file命令查看:

POST /_analyze

{

"text":"想白嫖吗?我是比较奥利给的",

"analyzer": "ik_smart"

}
{

"tokens" : [

{

"token" : "想",

"start_offset" : 0,

"end_offset" : 1,

"type" : "CN_CHAR",

"position" : 0

},

{

"token" : "白嫖",

"start_offset" : 1,

"end_offset" : 3,

"type" : "CN_WORD",

"position" : 1

},

{

"token" : "吗",

"start_offset" : 3,

"end_offset" : 4,

"type" : "CN_CHAR",

"position" : 2

},

{

"token" : "我",

"start_offset" : 5,

"end_offset" : 6,

"type" : "CN_CHAR",

"position" : 3

},

{

"token" : "是",

"start_offset" : 6,

"end_offset" : 7,

"type" : "CN_CHAR",

"position" : 4

},

{

"token" : "比较",

"start_offset" : 7,

"end_offset" : 9,

"type" : "CN_WORD",

"position" : 5

},

{

"token" : "奥利给",

"start_offset" : 9,

"end_offset" : 12,

"type" : "CN_WORD",

"position" : 6

}

]

}

相关推荐
凌晨一点的秃头猪2 分钟前
Python 常见 bug 总结和异常处理
开发语言·python·bug
DoveLx5 分钟前
如何集成ElasticSearch到Spring Boot+MySQL项目中
java·elasticsearch
云知谷15 分钟前
【经典书籍】C++ Primer 第19章特殊工具与技术精华讲解
c语言·开发语言·c++·软件工程·团队开发
yumgpkpm39 分钟前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM),粉丝数超过200就开源下载
hive·hadoop·redis·mongodb·elasticsearch·hbase·big data
liu****44 分钟前
4.基础开发工具(一)
linux·开发语言·1024程序员节
文火冰糖的硅基工坊44 分钟前
[人工智能-大模型-72]:模型层技术 - 模型训练六大步:①数据预处理 - 基本功能与对应的基本组成函数
开发语言·人工智能·python
小龙报1 小时前
《C语言疑难点 --- 字符函数和字符串函数专题(上)》
c语言·开发语言·c++·算法·学习方法·业界资讯·visual studio
凭君语未可1 小时前
深度解析Java的多态特性
java·开发语言
csbysj20201 小时前
DTD 元素:XML 与 SGML 文档结构解析指南
开发语言
傻童:CPU1 小时前
C语言练习题
c语言·开发语言