ElasticSearch 中分词与倒排索引的原理

首先是给检索用的。

  • 英文:一个单词一个词,很简单。I am a student,词与词之间空格分隔。
  • 中文:我是学生,就不能一个字一个字地分,我-是-学生。这是好分的。还有歧义的,使用户放心,使用-户,使-用户。人很容易看出,机器就难多了。所以市面上有各种各样的分词器,一个强调的效率一个强调的准确率。

倒排索引:倒排针对的是正排。

1:正排就是我记得我电脑有个文档,讲了 ES 的常见问题总结。那么我就找到文档,从上往下翻页,找到 ES 的部分。通过文档找文档内容。

2: 倒排:一个 txt 文件 ES 的常见问题 -> D:/分布式问题总结.doc。

所以倒排就是文档内容找文档。当然内容不是全部的,否则也不需要找文档了,内容就是几个分词而已。这里的 txt 就是搜索引擎。

相关推荐
数据智能老司机4 分钟前
Snowflake Cortex AI:面向生成式 AI 应用的解决方案——Snowflake 生态中的 AI/ML 入门
大数据·架构·数据分析
鸿儒之观2 小时前
dinky提交flink任务报 java.lang.OutOfMemoryError: Direct buffer memory
大数据·flink
YangYang9YangYan3 小时前
理财经理的职业进阶:核心技能与成长路径解析
大数据·金融·数据分析
shinelord明3 小时前
【大数据开发实践】Kafka REST Proxy~无缝集成 Kafka
大数据·分布式·架构·kafka
cyh男4 小时前
为什么ES中不推荐使用wildcard查询
elasticsearch·lucene
19岁开始学习4 小时前
PHP操作elasticsearch7.8
elasticsearch·jenkins·php
笨蛋少年派4 小时前
操作Hadoop时,慎用sudo
大数据·hadoop·分布式
青云交4 小时前
Java 大视界 -- Java 大数据在智能家居设备联动与场景自动化中的应用
java·大数据·智能家居·数据采集·设备联动·场景自动化·逻辑实现
武子康4 小时前
大数据-123 - Flink 并行度设置优先级讲解 原理、配置与最佳实践 从Kafka到HDFS的案例分析
大数据·后端·flink
不剪发的Tony老师4 小时前
Apache Drill:一款开源的分布式SQL查询引擎
大数据·sql·apache drill