ElasticSearch 中分词与倒排索引的原理

首先是给检索用的。

  • 英文:一个单词一个词,很简单。I am a student,词与词之间空格分隔。
  • 中文:我是学生,就不能一个字一个字地分,我-是-学生。这是好分的。还有歧义的,使用户放心,使用-户,使-用户。人很容易看出,机器就难多了。所以市面上有各种各样的分词器,一个强调的效率一个强调的准确率。

倒排索引:倒排针对的是正排。

1:正排就是我记得我电脑有个文档,讲了 ES 的常见问题总结。那么我就找到文档,从上往下翻页,找到 ES 的部分。通过文档找文档内容。

2: 倒排:一个 txt 文件 ES 的常见问题 -> D:/分布式问题总结.doc。

所以倒排就是文档内容找文档。当然内容不是全部的,否则也不需要找文档了,内容就是几个分词而已。这里的 txt 就是搜索引擎。

相关推荐
说私域1 小时前
社群在 2+1 链动模式 S2B2C 商城小程序社交新零售运营中的价值与应用
大数据·小程序·零售
武子康1 小时前
大数据-226 离线数仓 - Flume 优化配置 自定义拦截器 拦截原理 了 拦截器实现 Java
java·大数据·数据仓库·hive·hadoop·数据挖掘·flume
FinelyYang2 小时前
Springboot集成ElasticSearch实现minio文件内容全文检索
spring boot·elasticsearch·全文检索
Cachel wood2 小时前
git本地分支推送到远程和远程pull到本地
大数据·数据库·git·elasticsearch·postgresql·r语言·ssh
杨丰玉3 小时前
Ubuntu上搭建Flink Standalone集群
大数据·ubuntu·flink·实时计算·集群搭建
Leo.yuan3 小时前
企业BI工具如何选择?主流5款BI工具多维对比
大数据·信息可视化·数据分析·数据可视化
好记性+烂笔头3 小时前
Flink_DataStreamAPI_执行环境
大数据·pycharm·flink
晨航3 小时前
Flink新版Source接口源码解析
java·大数据·flink
安静读书7 小时前
Elasticsearch(ES)简介
大数据·elasticsearch
weixin_443514778 小时前
Flume1.9.0自定义Sink组件将数据发送至Mysql
大数据·flume