6.IK分词器拓展词库

比如一些行业专业词汇、简单无意义词(例如:的、得、地、是等)、网络流行词、后来形成的词、再或者一些禁忌词(比如:领导人的名字、黄赌毒犯罪等词要排除的)

在es的插件目录下查找配置文件:

找到IKAnalyzer.cfg.xml文件并进行修改:

向stopword.dic文件中添加如下词:

以上修改完成后,需要重启ES。

注意:创建ext.dic文件时候,注意文件的编码格式,最好拷贝 IKAnalyzer.cfg.xml文件进行修改。

使用file命令查看:

POST /_analyze

{

"text":"想白嫖吗?我是比较奥利给的",

"analyzer": "ik_smart"

}
{

"tokens" : [

{

"token" : "想",

"start_offset" : 0,

"end_offset" : 1,

"type" : "CN_CHAR",

"position" : 0

},

{

"token" : "白嫖",

"start_offset" : 1,

"end_offset" : 3,

"type" : "CN_WORD",

"position" : 1

},

{

"token" : "吗",

"start_offset" : 3,

"end_offset" : 4,

"type" : "CN_CHAR",

"position" : 2

},

{

"token" : "我",

"start_offset" : 5,

"end_offset" : 6,

"type" : "CN_CHAR",

"position" : 3

},

{

"token" : "是",

"start_offset" : 6,

"end_offset" : 7,

"type" : "CN_CHAR",

"position" : 4

},

{

"token" : "比较",

"start_offset" : 7,

"end_offset" : 9,

"type" : "CN_WORD",

"position" : 5

},

{

"token" : "奥利给",

"start_offset" : 9,

"end_offset" : 12,

"type" : "CN_WORD",

"position" : 6

}

]

}

相关推荐
Elastic 中国社区官方博客21 分钟前
带地图的 RAG:多模态 + 地理空间 在 Elasticsearch 中
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型·全文检索
空山新雨(大队长)26 分钟前
Java第五课:输入输出
java·开发语言
wow_DG36 分钟前
【Vue2 ✨】Vue2 入门之旅 · 进阶篇(二):虚拟 DOM 与 Diff 算法
开发语言·javascript·vue.js·算法·前端框架
sali-tec2 小时前
C# 基于halcon的视觉工作流-章32-线线测量
开发语言·人工智能·算法·计算机视觉·c#
little_xianzhong2 小时前
Java 日期字符串万能解析工具类(支持多种日期格式智能转换)
java·开发语言
Dersun2 小时前
python学习进阶之异常和文件操作(三)
开发语言·python·学习·json
我好喜欢你~2 小时前
C#---Expression(表达式)
开发语言·c#
Tiger_shl3 小时前
【.Net技术栈梳理】01-核心框架与运行时(CLR)
开发语言·.net
Tiger_shl3 小时前
【.Net技术栈梳理】02-核心框架与运行时(GC管理)
开发语言·.net
阿里matlab建模师3 小时前
【直流电机鲁棒控制】matlab实现H无穷大控制的直流电机鲁棒控制研究
开发语言·数学建模·matlab·全国大学生数学建模竞赛·美赛·科研项目