elasticsearch中的倒排索引

倒排索引是搜索引擎中常用的一种数据结构,适用于全文检索,能够通过文本内容高效检索到相应的文档。

一、倒排索引的基本概念

正排索引:传统的索引方式,按照文档id顺序存储文档,通过文档id找到文档对应的词。因此当需要找到包含某个词的文档时,需要遍历所有文档,不适合全文检索。

|-------|----------|
| doc_1 | cat dog |
| doc_2 | dog fish |
| doc_3 | cat fish |

倒排索引:将文档中的每个词映射到包含该词的文档id列表,这样就可以快速找到包含某个词的所有文档。

|------|----------|
| cat | [1, 3] |
| dog | [1, 2] |
| fish | [2, 3] |

二、倒排索引优势

(1) 快速检索,避免全局扫描所有文档

(2)节省存储空间,倒排索引只存储词条与文档的关系,不会重复存储词条

(3)适合全文检索

三、elasticsearch中的倒排索引

elasticsearch在实际应用中,还对倒排索引做了一系列优化,以提高性能和存储效率:

(1)压缩。倒排索引中的文档列表通常会进行压缩。

(2)分片与副本。通过分片(shard)和副本(replica)提高并发性和容错性。

(3)缓存机制。es会缓存热词。

相关推荐
m***066829 分钟前
Java进阶(ElasticSearch的安装与使用)
java·elasticsearch·jenkins
大模型玩家七七2 小时前
技术抉择:微调还是 RAG?——以春节祝福生成为例
android·java·大数据·开发语言·人工智能·算法·安全
_周游2 小时前
Java8 API文档搜索引擎_7.项目优化之权重合并
java·开发语言·前端·搜索引擎·intellij-idea
GEO-optimize3 小时前
2026北京GEO服务商评审指南:核心实力与适配指南
大数据·人工智能·机器学习·geo
跨境小技3 小时前
如何从eBay抓取商品价格数据?2026 eBay数据采集实用方案
大数据·运维
JosieBook4 小时前
【数据库】时序数据库选型指南:从大数据角度解析IoTDB的优势
大数据·数据库·时序数据库
微尘hjx5 小时前
【GitHub 代码仓 02】git命令操作示例
git·elasticsearch·github
小叮当⇔5 小时前
电动工具品牌简介
大数据·人工智能
Aloudata5 小时前
数据治理新解法:基于算子级血缘的主动元数据如何破解数仓重构难题?
大数据·数据库·数据治理·元数据·数据血缘
weixin199701080165 小时前
海外淘宝商品详情页前端性能优化实战
大数据·前端·python