ElasticSearch 中分词与倒排索引的原理

首先是给检索用的。

  • 英文:一个单词一个词,很简单。I am a student,词与词之间空格分隔。
  • 中文:我是学生,就不能一个字一个字地分,我-是-学生。这是好分的。还有歧义的,使用户放心,使用-户,使-用户。人很容易看出,机器就难多了。所以市面上有各种各样的分词器,一个强调的效率一个强调的准确率。

倒排索引:倒排针对的是正排。

1:正排就是我记得我电脑有个文档,讲了 ES 的常见问题总结。那么我就找到文档,从上往下翻页,找到 ES 的部分。通过文档找文档内容。

2: 倒排:一个 txt 文件 ES 的常见问题 -> D:/分布式问题总结.doc。

所以倒排就是文档内容找文档。当然内容不是全部的,否则也不需要找文档了,内容就是几个分词而已。这里的 txt 就是搜索引擎。

相关推荐
EasyNTS18 分钟前
ONVIF/RTSP/RTMP协议EasyCVR视频汇聚平台RTMP协议配置全攻略 | 直播推流实战教程
大数据·网络·人工智能·音视频
Apache Flink26 分钟前
Lalamove基于Flink实时湖仓演进之路
大数据·flink
范桂飓37 分钟前
案例分析:东华新径,拉动式生产的智造之路
大数据·人工智能
杨超越luckly1 小时前
HTML应用指南:利用GET请求获取全国汉堡王门店位置信息
大数据·前端·信息可视化·数据分析·html
中科岩创1 小时前
高支模自动化监测解决方案
大数据·网络·物联网·自动化
D愿你归来仍是少年2 小时前
基于Python脚本实现Flink on YARN任务批量触发Savepoint的实践指南
大数据·运维·flink
腾讯云开发者2 小时前
支付系统设计入门:核心账户体系架构
大数据·人工智能
IT成长日记2 小时前
【Hadoop入门】Hadoop生态之Oozie简介
大数据·hadoop·分布式
凯禾瑞华实训室建设3 小时前
创新驱动:智慧养老综合实训室内的前沿技术应用
大数据·人工智能·科技·物联网·vr
BenBen尔3 小时前
在spark中,窄依赖算子map和filter会组合为一个stage,这种情况下,map和filter是在一个task内进行的吗?
大数据·分布式·spark