ES 安装IK分词器

原有问题

默认按照逐个单词分词,而不是此词组

Dev Tools - Elastic

bash 复制代码
# 测试分词器
POST /_analyze
{
  "text": "To learn about how usage data helps us manage and improve our products and services, see our Privacy Statement(opens in a new tab or window). To stop collection, disable usage data here."
}

安装分词器

ES 环境搭建

参考:ES 基本操作 - 掘金 (juejin.cn)

控制台分别输入:

javascript 复制代码
docker run -d --name es -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" -e "discovery.type=single-node"  -v es-data:/usr/share/elasticsearch/data -v es-plugins:/usr/share/elasticsearch/plugins  --privileged  --network es-net -p 9200:9200  -p 9300:9300 elasticsearch:8.8.2
arduino 复制代码
docker run -d --name kibana -e ELASTICSEARCH_HOSTS=http://es:9200 --network=es-net -p 5601:5601 kibana:8.8.2

IK下载地址

Releases · medcl/elasticsearch-analysis-ik · GitHub

IK安装

查看 es-plugins 地址 : docker volume inspect es-plugins

在win中地址可能不一样,位置可参考如下路径:

\\wsl$\docker-desktop-data\data\docker\volumes\es-plugins\_data

相关文档推荐:

Docker Desktop for Windows(WSL 2 方式)数据卷存放位置及如何访问_windiws上docker创建的数据库放在那里_4CTOR的博客-CSDN博客

将IK包放入es-plugin_data文件夹内,并改名为 ik

重启es :docker restart es

种类

  • ik_smart:粗粒分词,分出的词相对较少,但占用内存空间也较少
  • ik_max_word:最细切分,分出的词相对更细,但占用内存空间也更多

ES-IK分词器拓展和停用词典

IKAnalyzer.cfg.xml:扩展和通用词典文件所在位置配置

ext.dic:IKAnalyzer.cfg.xml中配置的扩展词典

stopword.dic:IKAnalyzer.cfg.xml中配置的停用词典

为什么要配置扩展词典和停用词典?

扩展词典:可能会有一些全新词IK分词器之前并没有加入到词典中,这时候就需要我们配置一些新出现的词,IK分词器才能在分词的时候把他们当做一个词来看待。如:绝绝子,鲲鲲等

停用词典:敏感词屏蔽

自定义词典

更多

Elasticsearch 英文分词 & 中文分词 - 知乎 (zhihu.com)

相关推荐
考虑考虑25 分钟前
Postgerssql格式化时间
数据库·后端·postgresql
Chan1637 分钟前
【智能协同云图库】基于统一接口架构构建多维度分析功能、结合 ECharts 可视化与权限校验实现用户 / 管理员图库统计、通过 SQL 优化与流式处理提升数据
java·spring boot·后端·sql·spring·intellij-idea·echarts
库库林_沙琪马1 小时前
REST接口幂等设计深度解析
spring boot·后端
IT_陈寒1 小时前
Redis性能提升50%的7个关键优化策略,90%开发者都不知道第5点!
前端·人工智能·后端
智商偏低1 小时前
ASP.NET Core 身份验证概述
后端·asp.net
冷冷的菜哥1 小时前
ASP.NET Core使用MailKit发送邮件
后端·c#·asp.net·发送邮件·mailkit
canonical_entropy1 小时前
XDef:一种面向演化的元模型及其构造哲学
后端
小林coding2 小时前
再也不怕面试了!程序员 AI 面试练习神器终于上线了
前端·后端·面试
lypzcgf2 小时前
Coze源码分析-资源库-删除插件-后端源码-错误处理与总结
人工智能·后端·go·coze·coze源码分析·ai应用平台·agent平台
文心快码BaiduComate2 小时前
WAVE SUMMIT深度学习开发者大会2025举行 文心大模型X1.1发布
前端·后端·程序员