solr/ES 分词插件Jcseg设置自定义词库

步骤:

1、找到配置文件jcseg-core/target/classes/jcseg.properties修改配置:

下载地址: https://gitee.com/lionsoul/jcseg#5-如何自定义使用词库

复制代码
lexicon.path = {jar.dir}/../custom-word

设置lexicon路径,我们这个配置可以自定义,这个就是词库目录信息,{jar.dir}值得是编译完的jar存放目录。

2、将已有的词库复制到自定义目录中。

默认在jcseg-core/target/classes/lexicon,将里面的内容复制到自定义目录,我的 是/custom-word目录

3、修改复制过来的目录文件,增加词库数据。他默认已经分类好了,我要添加测试字库solr,暂时放到公司目录。

复制代码
农村信用社/nt/nong cun xin yong she/null
邮政局/nt/you zheng ju/null
邮政储蓄银行/nt/you zheng chu xu yin xing/null
solr/nt/solr/null

如上面所示,/分割,

第一个是中文字符;

第二个是分类和上面一样就行;

第三个是英文;

最后一个是使用次数。

4、记得重启一下tomcat或者docker容器即可。可以看到分词成功:

相关推荐
和科比合砍81分3 小时前
ES模块(ESM)、CommonJS(CJS)和UMD三种格式
大数据·elasticsearch·搜索引擎
AAA修煤气灶刘哥11 小时前
MySQL 查文本查哭了?来唠唠 ES 这货:从 “啥是 ES” 到 Java 撸代码,一篇整明白!
java·后端·elasticsearch
Elasticsearch15 小时前
什么是上下文工程 (Context Engineering)?
elasticsearch
白毛大侠17 小时前
如何安全地删除与重建 Elasticsearch 的 .watches 索引
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客17 小时前
Elasticsearch 的 JVM 基础知识:指标、内存和监控
java·大数据·elasticsearch·搜索引擎·全文检索
Arthurmoo18 小时前
Git常用命令大全:高效开发必备
大数据·elasticsearch·搜索引擎
华农第一蒟蒻1 天前
Elasticsearch赋能3D打印机任务统计分析
java·大数据·spring boot·后端·elasticsearch·adb·maven
risc1234561 天前
【lucene】advanceshallow就是遍历跳表的,可以看作是跳表的遍历器
lucene
cyh男1 天前
Lucene 8.7.0 版本的索引文件格式
搜索引擎·全文检索·lucene
Elasticsearch1 天前
转变数据交互:在 Amazon Bedrock AgentCore Runtime 上部署 Elastic 的 MCP 服务器以构建 agentic AI 应用
elasticsearch