solr/ES 分词插件Jcseg设置自定义词库

步骤:

1、找到配置文件jcseg-core/target/classes/jcseg.properties修改配置:

下载地址: https://gitee.com/lionsoul/jcseg#5-如何自定义使用词库

复制代码
lexicon.path = {jar.dir}/../custom-word

设置lexicon路径,我们这个配置可以自定义,这个就是词库目录信息,{jar.dir}值得是编译完的jar存放目录。

2、将已有的词库复制到自定义目录中。

默认在jcseg-core/target/classes/lexicon,将里面的内容复制到自定义目录,我的 是/custom-word目录

3、修改复制过来的目录文件,增加词库数据。他默认已经分类好了,我要添加测试字库solr,暂时放到公司目录。

复制代码
农村信用社/nt/nong cun xin yong she/null
邮政局/nt/you zheng ju/null
邮政储蓄银行/nt/you zheng chu xu yin xing/null
solr/nt/solr/null

如上面所示,/分割,

第一个是中文字符;

第二个是分类和上面一样就行;

第三个是英文;

最后一个是使用次数。

4、记得重启一下tomcat或者docker容器即可。可以看到分词成功:

相关推荐
洛森唛18 小时前
ElasticSearch查询语句Query String详解:从入门到精通
后端·elasticsearch
洛森唛2 天前
Elasticsearch DSL 查询语法大全:从入门到精通
后端·elasticsearch
Elasticsearch4 天前
如何使用 Agent Builder 排查 Kubernetes Pod 重启和 OOMKilled 事件
elasticsearch
Elasticsearch5 天前
通用表达式语言 ( CEL ): CEL 输入如何改进 Elastic Agent 集成中的数据收集
elasticsearch
海兰7 天前
离线合同结构化提取与检索:LangExtract + 本地DeepSeek + Elasticsearch 9.x
大数据·elasticsearch·django
yumgpkpm7 天前
AI视频生成:Wan 2.2(阿里通义万相)在华为昇腾下的部署?
人工智能·hadoop·elasticsearch·zookeeper·flink·kafka·cloudera
Sheffield7 天前
如果把ZooKeeper按字面意思比作动物园管理员……
elasticsearch·zookeeper·kafka
嗝屁小孩纸7 天前
ES索引重建(零工具纯脚本执行)
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客7 天前
使用 Jina Embeddings v5 和 Elasticsearch 构建“与你的网站数据聊天”的 agent
大数据·人工智能·elasticsearch·搜索引擎·容器·全文检索·jina