solr/ES 分词插件Jcseg设置自定义词库

步骤:

1、找到配置文件jcseg-core/target/classes/jcseg.properties修改配置:

下载地址: https://gitee.com/lionsoul/jcseg#5-如何自定义使用词库

复制代码
lexicon.path = {jar.dir}/../custom-word

设置lexicon路径,我们这个配置可以自定义,这个就是词库目录信息,{jar.dir}值得是编译完的jar存放目录。

2、将已有的词库复制到自定义目录中。

默认在jcseg-core/target/classes/lexicon,将里面的内容复制到自定义目录,我的 是/custom-word目录

3、修改复制过来的目录文件,增加词库数据。他默认已经分类好了,我要添加测试字库solr,暂时放到公司目录。

复制代码
农村信用社/nt/nong cun xin yong she/null
邮政局/nt/you zheng ju/null
邮政储蓄银行/nt/you zheng chu xu yin xing/null
solr/nt/solr/null

如上面所示,/分割,

第一个是中文字符;

第二个是分类和上面一样就行;

第三个是英文;

最后一个是使用次数。

4、记得重启一下tomcat或者docker容器即可。可以看到分词成功:

相关推荐
不平衡的叉叉树4 小时前
Es索引文档全量更新与迁移
大数据·elasticsearch·搜索引擎
better_liang10 小时前
每日Java面试场景题知识点之-Elasticsearch
java·elasticsearch·搜索引擎·面试·性能优化
Wang's Blog10 小时前
Elastic Stack梳理:深入解析Packetbeat网络抓包与Heartbeat服务监控
网络·elasticsearch·搜索引擎
Elastic 中国社区官方博客13 小时前
Jina-VLM:小型多语言视觉语言模型
数据库·人工智能·elasticsearch·搜索引擎·ai·语言模型·jina
摇滚侠14 小时前
ElasticSearch 教程入门到精通,应对故障,路由计算分片控制,数据读写流程,数据更新流程,数据批量操作流程,笔记38、39、40、41、42
大数据·笔记·elasticsearch
_院长大人_14 小时前
解决 Git 提交大文件导致 Push 被拒绝的问题
java·git·后端·elasticsearch
kanyun12315 小时前
ElasticSearch8 java api子聚合写法
java·elasticsearch
GeminiJM16 小时前
Elasticsearch Bulk 写入优化实践:从线程池拒绝到高效批量写入
大数据·elasticsearch·jenkins
Elasticsearch16 小时前
快速找到答案,将 OpenTelemetry traces 与 Elastic Observability 中现有的 ECS 日志关联起来
elasticsearch
Elasticsearch16 小时前
AutoOps 实际应用:调查 ECK 上的 Elasticsearch 集群性能
elasticsearch