6.IK分词器拓展词库

比如一些行业专业词汇、简单无意义词(例如:的、得、地、是等)、网络流行词、后来形成的词、再或者一些禁忌词(比如:领导人的名字、黄赌毒犯罪等词要排除的)

在es的插件目录下查找配置文件:

找到IKAnalyzer.cfg.xml文件并进行修改:

向stopword.dic文件中添加如下词:

以上修改完成后,需要重启ES。

注意:创建ext.dic文件时候,注意文件的编码格式,最好拷贝 IKAnalyzer.cfg.xml文件进行修改。

使用file命令查看:

POST /_analyze

{

"text":"想白嫖吗?我是比较奥利给的",

"analyzer": "ik_smart"

}
{

"tokens" : [

{

"token" : "想",

"start_offset" : 0,

"end_offset" : 1,

"type" : "CN_CHAR",

"position" : 0

},

{

"token" : "白嫖",

"start_offset" : 1,

"end_offset" : 3,

"type" : "CN_WORD",

"position" : 1

},

{

"token" : "吗",

"start_offset" : 3,

"end_offset" : 4,

"type" : "CN_CHAR",

"position" : 2

},

{

"token" : "我",

"start_offset" : 5,

"end_offset" : 6,

"type" : "CN_CHAR",

"position" : 3

},

{

"token" : "是",

"start_offset" : 6,

"end_offset" : 7,

"type" : "CN_CHAR",

"position" : 4

},

{

"token" : "比较",

"start_offset" : 7,

"end_offset" : 9,

"type" : "CN_WORD",

"position" : 5

},

{

"token" : "奥利给",

"start_offset" : 9,

"end_offset" : 12,

"type" : "CN_WORD",

"position" : 6

}

]

}

相关推荐
Riu_Peter2 小时前
【技术】记一次 Docker 中的 ES 数据迁移,使用 Reindex API
elasticsearch·docker·容器
虾球xz2 小时前
CppCon 2016 学习:GAME ENGINE USING C++11
大数据·开发语言·c++·学习
Jet45052 小时前
第100+42步 ChatGPT学习:R语言实现阈值调整
开发语言·学习·chatgpt·r语言
虾球xz2 小时前
CppCon 2016 学习:fixed_point Library
开发语言·c++·学习
希希不嘻嘻~傻希希2 小时前
CSS 字体与文本样式笔记
开发语言·前端·javascript·css·ecmascript
寄思~3 小时前
Python学习笔记:错误和异常处理
开发语言·笔记·python·学习
clmm1233 小时前
Java动态生成Nginx服务配置
java·开发语言·nginx
lzb_kkk4 小时前
【MFC】编辑框、下拉框、列表控件
c语言·开发语言·c++·mfc·1024程序员节
繢鴻4 小时前
Python环境搭建
开发语言·python
飞鸟malred4 小时前
go语言快速入门
开发语言·后端·golang