elasticsearch中的倒排索引

倒排索引是搜索引擎中常用的一种数据结构,适用于全文检索,能够通过文本内容高效检索到相应的文档。

一、倒排索引的基本概念

正排索引:传统的索引方式,按照文档id顺序存储文档,通过文档id找到文档对应的词。因此当需要找到包含某个词的文档时,需要遍历所有文档,不适合全文检索。

|-------|----------|
| doc_1 | cat dog |
| doc_2 | dog fish |
| doc_3 | cat fish |

倒排索引:将文档中的每个词映射到包含该词的文档id列表,这样就可以快速找到包含某个词的所有文档。

|------|----------|
| cat | [1, 3] |
| dog | [1, 2] |
| fish | [2, 3] |

二、倒排索引优势

(1) 快速检索,避免全局扫描所有文档

(2)节省存储空间,倒排索引只存储词条与文档的关系,不会重复存储词条

(3)适合全文检索

三、elasticsearch中的倒排索引

elasticsearch在实际应用中,还对倒排索引做了一系列优化,以提高性能和存储效率:

(1)压缩。倒排索引中的文档列表通常会进行压缩。

(2)分片与副本。通过分片(shard)和副本(replica)提高并发性和容错性。

(3)缓存机制。es会缓存热词。

相关推荐
巧克力味的桃子15 分钟前
Spark 课程核心知识点复习汇总
大数据·分布式·spark
金刚猿24 分钟前
工作流调度平台 Dolphinscheduler - Standalone 单机部署 + Flink 部署【kafka消息推送、flink 消费】
大数据·flink
木风小助理26 分钟前
解读 SQL 累加计算:从传统方法到窗口函数
大数据·数据库·sql
AI猫站长38 分钟前
快讯|腾讯ULTRALOGIC用“负分奖励”训练推理,北航SIAMD用“结构信息”反制AI水军,AI治理技术能否跟上AI生成技术的步伐?
人工智能·搜索引擎
SeaTunnel38 分钟前
Apache SeaTunnel 2025 案例精选重磅发布!
大数据·开源·apache·seatunnel·案例
竹君子1 小时前
新能源知识库(167)什么是章鱼能源?
大数据·人工智能·能源
期货资管源码2 小时前
外盘期货资管分仓软件源码搭建教程
大数据·源代码管理
Justice Young2 小时前
Hive第四章:HIVE Operators and Functions
大数据·数据仓库·hive·hadoop
百***24372 小时前
GPT-5.2国内调用+API中转+成本管控
大数据·人工智能·深度学习
min1811234563 小时前
金融风控中的实时行为建模
大数据·人工智能