ElasticSearch 中分词与倒排索引的原理

首先是给检索用的。

  • 英文:一个单词一个词,很简单。I am a student,词与词之间空格分隔。
  • 中文:我是学生,就不能一个字一个字地分,我-是-学生。这是好分的。还有歧义的,使用户放心,使用-户,使-用户。人很容易看出,机器就难多了。所以市面上有各种各样的分词器,一个强调的效率一个强调的准确率。

倒排索引:倒排针对的是正排。

1:正排就是我记得我电脑有个文档,讲了 ES 的常见问题总结。那么我就找到文档,从上往下翻页,找到 ES 的部分。通过文档找文档内容。

2: 倒排:一个 txt 文件 ES 的常见问题 -> D:/分布式问题总结.doc。

所以倒排就是文档内容找文档。当然内容不是全部的,否则也不需要找文档了,内容就是几个分词而已。这里的 txt 就是搜索引擎。

相关推荐
Json_1817901448033 分钟前
拍立淘按图搜索API接口需要遵循一定的步骤和注意事项
大数据·python·api
it噩梦42 分钟前
elasticsearch中使用fuzzy查询
elasticsearch
蜘蛛池.中国2 小时前
搜索引擎蜘蛛池的原理是什么,蜘蛛池搭建教程(蜘蛛池.中国)
搜索引擎·制造
奥顺互联V2 小时前
一次性部署:使用Docker部署PHP应用
大数据·mysql·开源·php
椰椰椰耶2 小时前
【文档搜索引擎】缓冲区优化和索引模块小结
java·spring·搜索引擎
重生之绝世牛码2 小时前
Java设计模式 —— 【结构型模式】外观模式详解
java·大数据·开发语言·设计模式·设计原则·外观模式
喝醉酒的小白3 小时前
Elasticsearch相关知识@1
大数据·elasticsearch·搜索引擎
边缘计算社区3 小时前
首个!艾灵参编的工业边缘计算国家标准正式发布
大数据·人工智能·边缘计算
MZWeiei3 小时前
Zookeeper的选举机制
大数据·分布式·zookeeper
MZWeiei3 小时前
Zookeeper基本命令解析
大数据·linux·运维·服务器·zookeeper