elasticsearch中的倒排索引

倒排索引是搜索引擎中常用的一种数据结构,适用于全文检索,能够通过文本内容高效检索到相应的文档。

一、倒排索引的基本概念

正排索引:传统的索引方式,按照文档id顺序存储文档,通过文档id找到文档对应的词。因此当需要找到包含某个词的文档时,需要遍历所有文档,不适合全文检索。

|-------|----------|
| doc_1 | cat dog |
| doc_2 | dog fish |
| doc_3 | cat fish |

倒排索引:将文档中的每个词映射到包含该词的文档id列表,这样就可以快速找到包含某个词的所有文档。

|------|----------|
| cat | 1, 3 |
| dog | 1, 2 |
| fish | 2, 3 |

二、倒排索引优势

(1) 快速检索,避免全局扫描所有文档

(2)节省存储空间,倒排索引只存储词条与文档的关系,不会重复存储词条

(3)适合全文检索

三、elasticsearch中的倒排索引

elasticsearch在实际应用中,还对倒排索引做了一系列优化,以提高性能和存储效率:

(1)压缩。倒排索引中的文档列表通常会进行压缩。

(2)分片与副本。通过分片(shard)和副本(replica)提高并发性和容错性。

(3)缓存机制。es会缓存热词。

相关推荐
TheRouter3 分钟前
LLM 应用的Prompt 版本管理工程实践:从ad-hoc 字符串到生产级Prompt 仓库
大数据·elasticsearch·ai·prompt
环球科讯4 分钟前
精准赋能实体企业——建设银行广东省茂名市分行金融活水浇灌砂石产业
大数据
林三的日常5 分钟前
一周AI核弹级热点
人工智能·搜索引擎
小王毕业啦11 分钟前
2012-2024年 上市公司-企业业务招待费数据 (xlsx+文献)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
RoboWizard18 分钟前
企业级SSD批量供货与品质一致性FAQ
大数据
斐夷所非20 分钟前
超文本网络搜索引擎的剖析
搜索引擎
杰克逊的日记20 分钟前
kafka消息堆积了怎么处理
大数据·分布式·kafka
湘美书院--湘美谈教育32 分钟前
湘美谈教育湘美书院考古教育系列:湖南史前文化序列整理
大数据·数据库·人工智能·深度学习·神经网络·机器学习
kattgatt40 分钟前
轻量化智能升级:解析中小业态 AI 转型的成本逻辑与落地路径
大数据·人工智能
2601_9571909041 分钟前
超元力玻璃剧场轻量化落地体系,构筑文旅业态长效运营新基石
大数据·人工智能