solr/ES 分词插件Jcseg设置自定义词库

步骤:

1、找到配置文件jcseg-core/target/classes/jcseg.properties修改配置:

下载地址: https://gitee.com/lionsoul/jcseg#5-如何自定义使用词库

复制代码
lexicon.path = {jar.dir}/../custom-word

设置lexicon路径,我们这个配置可以自定义,这个就是词库目录信息,{jar.dir}值得是编译完的jar存放目录。

2、将已有的词库复制到自定义目录中。

默认在jcseg-core/target/classes/lexicon,将里面的内容复制到自定义目录,我的 是/custom-word目录

3、修改复制过来的目录文件,增加词库数据。他默认已经分类好了,我要添加测试字库solr,暂时放到公司目录。

复制代码
农村信用社/nt/nong cun xin yong she/null
邮政局/nt/you zheng ju/null
邮政储蓄银行/nt/you zheng chu xu yin xing/null
solr/nt/solr/null

如上面所示,/分割,

第一个是中文字符;

第二个是分类和上面一样就行;

第三个是英文;

最后一个是使用次数。

4、记得重启一下tomcat或者docker容器即可。可以看到分词成功:

相关推荐
Biehmltym14 小时前
【AI】09AI Agent LLM → Streaming → Session 记录 的完整链路
大数据·人工智能·elasticsearch
木风小助理14 小时前
C# 高效编程:Any () 与 Count () 正确选择
java·solr·lucene
小湘西15 小时前
Elasticsearch 的一些默认配置上下限
java·大数据·elasticsearch
Dxy123931021618 小时前
Elasticsearch 8如何做好标题搜索
大数据·elasticsearch
斯普信云原生组18 小时前
Elasticsearch(ES) 内存 CPU 过高问题排查报告
大数据·elasticsearch·搜索引擎
弘毅 失败的 mian19 小时前
Git 分支管理
大数据·经验分享·笔记·git·elasticsearch
阿坤带你走近大数据20 小时前
Elasticsearch(ES)的基本概念、架构及基本使用介绍
大数据·elasticsearch
Elastic 中国社区官方博客20 小时前
使用 Elasticsearch 中的结构化输出创建可靠的 agents
大数据·人工智能·elk·elasticsearch·搜索引擎·ai·全文检索
G皮T21 小时前
【Elasticsearch】查询性能调优(六):track_total_hits 影响返回结果的相关性排序吗
大数据·数据库·elasticsearch·搜索引擎·全文检索·性能·opensearch
LCG米1 天前
嵌入式Linux系统构建:为STM32MP157移植Buildroot并开发温湿度采集驱动
linux·stm32·elasticsearch