solr/ES 分词插件Jcseg设置自定义词库

步骤:

1、找到配置文件jcseg-core/target/classes/jcseg.properties修改配置:

下载地址: https://gitee.com/lionsoul/jcseg#5-如何自定义使用词库

复制代码
lexicon.path = {jar.dir}/../custom-word

设置lexicon路径,我们这个配置可以自定义,这个就是词库目录信息,{jar.dir}值得是编译完的jar存放目录。

2、将已有的词库复制到自定义目录中。

默认在jcseg-core/target/classes/lexicon,将里面的内容复制到自定义目录,我的 是/custom-word目录

3、修改复制过来的目录文件,增加词库数据。他默认已经分类好了,我要添加测试字库solr,暂时放到公司目录。

复制代码
农村信用社/nt/nong cun xin yong she/null
邮政局/nt/you zheng ju/null
邮政储蓄银行/nt/you zheng chu xu yin xing/null
solr/nt/solr/null

如上面所示,/分割,

第一个是中文字符;

第二个是分类和上面一样就行;

第三个是英文;

最后一个是使用次数。

4、记得重启一下tomcat或者docker容器即可。可以看到分词成功:

相关推荐
阿白逆袭记38 分钟前
Git原理与使用详解(二):初探Git仓库与核心工作流程
大数据·git·elasticsearch
阿白逆袭记42 分钟前
Git原理与使用详解(三):深入.git与文件管理实战
大数据·git·elasticsearch
秃了也弱了。2 小时前
elasticSearch之API:文本分词,分词器的使用(中)
大数据·elasticsearch
秃了也弱了。2 小时前
elasticSearch之API:文本分词,分词器的使用(下)
大数据·elasticsearch
阿白逆袭记2 小时前
Git原理与使用详解(五):平行宇宙——Git分支管理艺术
大数据·git·elasticsearch
yumgpkpm2 小时前
Cloudera CDP/CDH/Hadoop 信创大模型AI时代何去何从?
人工智能·hive·hadoop·elasticsearch·zookeeper·kafka·cloudera
羑悻的小杀马特4 小时前
Elasticsearch + Kibana 实战指南:从安装部署到 C++ 客户端封装,解锁搜索引擎开发核心技能
c++·elasticsearch·搜索引擎·kibana
帅次18 小时前
系统分析师-大数据处理系统分析与设计
数据仓库·elasticsearch·kafka·hbase·数据库开发·数据库架构·big data
历程里程碑18 小时前
双指针2--盛水最多的容器
大数据·数据结构·算法·leetcode·elasticsearch·搜索引擎·散列表
不会c+21 小时前
Elasticsearch入门
大数据·elasticsearch·搜索引擎