elasticsearch中文分词器analysis-ik使用及修改分词器名称

针对analysis-ik我就不具体介绍了,我个人主要认为它的有点有:

1.java开发,方便修改源码(比如文件内容加密,或者其他特定的分词处理)

2.中文分词效果比较好

3.配置文件响相对于简单

ik下载地址:

https://release.infinilabs.com/analysis-ik/stable/

网上很多让你在服务器上下载或者定位到githup上的我觉得都不太好,不够清晰

上面收录了各个版本es对应的ik分词器版本,特别注意

*******es版本要严格对应ik版本********

比如es为6.3.2那么ik也要下载6.3.2

源码地址

https://github.com/infinilabs/analysis-ik/tree/6.x?tab=readme-ov-file#versions

因为es之前 已经用了一个ik插件修改了一些源码进行了一些加密等等的处理,但是现在想要保持上一个ik插件的特性的情况下,在用一个正常的ik插件,所以需要将第二个ik插件更改名称防止两个插件发生冲突。

1.需要修改源码箭头部分改为自己ik插件的名字:

java 复制代码
public class AnalysisIkPlugin extends Plugin implements AnalysisPlugin {

	public static String PLUGIN_NAME = "analysis-test-ik";

    @Override
    public Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> getTokenizers() {
        Map<String, AnalysisModule.AnalysisProvider<TokenizerFactory>> extra = new HashMap<>();


        extra.put("ik_smart_test", IkTokenizerFactory::getIkSmartTokenizerFactory);
        extra.put("ik_max_word_test", IkTokenizerFactory::getIkTokenizerFactory);

        return extra;
    }

    @Override
    public Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> getAnalyzers() {
        Map<String, AnalysisModule.AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> extra = new HashMap<>();

        extra.put("ik_smart_test", IkAnalyzerProvider::getIkSmartAnalyzerProvider);
        extra.put("ik_max_word_test", IkAnalyzerProvider::getIkAnalyzerProvider);

        return extra;
    }

}

2.修改pom文件(改为自己的名称)

XML 复制代码
    <properties>
        <elasticsearch.version>6.3.2</elasticsearch.version>
        <maven.compiler.target>1.8</maven.compiler.target>
        <elasticsearch.assembly.descriptor>${project.basedir}/src/main/assemblies/plugin.xml</elasticsearch.assembly.descriptor>
        <elasticsearch.plugin.name>analysis-test-ik</elasticsearch.plugin.name>
        <elasticsearch.plugin.classname>org.elasticsearch.plugin.analysis.ik.AnalysisIkPlugin</elasticsearch.plugin.classname>
        <elasticsearch.plugin.jvm>true</elasticsearch.plugin.jvm>
        <tests.rest.load_packaged>false</tests.rest.load_packaged>
        <skip.unit.tests>true</skip.unit.tests>
        <gpg.keyname>4E899B30</gpg.keyname>
        <gpg.useagent>true</gpg.useagent>
    </properties>

然后在es的plugins/按照不同名称把两个ik放在不同名字的目录下,通过不同的分词方法,调用两个不同的ik分词器。

相关推荐
二哈赛车手1 小时前
新人笔记---实现简易版的rag的bm25检索(利用ES),以及RAG上传时的ES与向量数据库双写
java·数据库·笔记·spring·elasticsearch·ai
无忧智库1 小时前
跨行业数据要素可信流通体系建设:打破信任壁垒的完整工程方法论(WORD)
大数据·人工智能
小王毕业啦1 小时前
2007-2024年 省级-农林牧渔总产值、农业总产值数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
数据皮皮侠1 小时前
上市公司创新韧性数据(2000-2024)|顶刊同款 EIR 指数
大数据·人工智能·算法·智慧城市·制造
科研前沿2 小时前
纯视觉无感解算 + 动态数字孪生:室内外无感定位技术全新升级
大数据·人工智能·算法·重构·空间计算
科研前沿2 小时前
什么是时空融合技术?
大数据·人工智能·数码相机·算法·重构·空间计算
逸Y 仙X3 小时前
文章十九: ElasticSearch Full Text 全文本查询
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
Justice Young3 小时前
Flink测试题目及知识点整理(一)
大数据·flink
njsgcs3 小时前
我有待做任务清单和不良操作图片集,如何设计ai agent协助我完成工作
大数据·人工智能
BizViewStudio4 小时前
甄选方法:2026 企业新媒体代运营的短视频精细化运营与流量转化技巧
大数据·网络·人工智能·媒体