elasticsearch中的倒排索引

倒排索引是搜索引擎中常用的一种数据结构,适用于全文检索,能够通过文本内容高效检索到相应的文档。

一、倒排索引的基本概念

正排索引:传统的索引方式,按照文档id顺序存储文档,通过文档id找到文档对应的词。因此当需要找到包含某个词的文档时,需要遍历所有文档,不适合全文检索。

|-------|----------|
| doc_1 | cat dog |
| doc_2 | dog fish |
| doc_3 | cat fish |

倒排索引:将文档中的每个词映射到包含该词的文档id列表,这样就可以快速找到包含某个词的所有文档。

|------|----------|
| cat | [1, 3] |
| dog | [1, 2] |
| fish | [2, 3] |

二、倒排索引优势

(1) 快速检索,避免全局扫描所有文档

(2)节省存储空间,倒排索引只存储词条与文档的关系,不会重复存储词条

(3)适合全文检索

三、elasticsearch中的倒排索引

elasticsearch在实际应用中,还对倒排索引做了一系列优化,以提高性能和存储效率:

(1)压缩。倒排索引中的文档列表通常会进行压缩。

(2)分片与副本。通过分片(shard)和副本(replica)提高并发性和容错性。

(3)缓存机制。es会缓存热词。

相关推荐
程途拾光1586 小时前
企业部门协作泳道图制作工具 PC端
大数据·运维·流程图
落叶,听雪6 小时前
河南建站系统哪个好
大数据·人工智能·python
大数据追光猿7 小时前
【大数据Doris】生产环境,Doris主键模型全表7000万数据更新写入为什么那么慢?
大数据·经验分享·笔记·性能优化·doris
武子康8 小时前
大数据-197 K折交叉验证实战:sklearn 看均值/方差,选更稳的 KNN 超参
大数据·后端·机器学习
数据皮皮侠8 小时前
2m气温数据集(1940-2024)
大数据·数据库·人工智能·制造·微信开放平台
Coder_Boy_9 小时前
基于SpringAI的智能运维平台(AI驱动)
大数据·运维·人工智能
智能化咨询10 小时前
(99页PPT)智慧校园XXX学院总体解决方案(附下载方式)
大数据
wang_yb12 小时前
数据分析师的“水晶球”:时间序列分析
大数据·databook
ModestCoder_12 小时前
Git 版本管理教程
大数据·git·elasticsearch
hg011812 小时前
湖南工程机械海外火爆,非洲成为出口新增长极
大数据