Elasticsearch 架构及 Lucene 索引结构原理入门

文章目录

  • [Elasticsearch 整体架构](#Elasticsearch 整体架构)
  • [Lucene 索引结构](#Lucene 索引结构)
  • [Lucene 倒排索引核心原理](#Lucene 倒排索引核心原理)
  • 倒排索引
  • [倒排表(Posting List)](#倒排表(Posting List))

Elasticsearch 整体架构


一个 ES Index 在集群模式下,有多个Node(节点)组成,每个节点就是ES的 instance(实例)

每个节点上会有多个 shard(分片),P1 P2 是主分片,R1 R2 是副本分片。

每个分片上对应着就是一个 Lucene Index (底层索引文件)

Lucene Index 是一个统称:

由多个 Segment(段文件,就是倒排索引)组成,每个段文件存储着的就是 Doc 文档。

commit point 记录了所有的 segments 的信息

Lucene 索引结构

Lucene 倒排索引核心原理

Lucene 是一个成熟的权威检索库,具有高性能、可伸缩的特点,并且开源、免费。在其基础上开发的分布式搜索引擎便是 Elasticsearch。

Elasticsearch 的搜索原理简单过程是,索引系统通过扫描文章中的每一个词,对其创建索引,指明在文章中出现的次数和位置,当用户查询时,索引系统就会根据事先的索引进行查找,并将查找的结果反馈给用户的检索方式。

倒排索引

倒排索引是整个 ES 的核心,正常的搜索以一本书为例,应该是由 "目录 -> 章节 -> 页码 -> 内容" 这样的查找顺序,这样是正排索引的思想。

倒排索引的思路是通过单词到文档ID的关系对应。

倒排索引包含两个部分:

  • 单词词典(Term Dictionary):记录所有文档的单词,记录单词到倒排列表的关联关系(单词词典一般比较大,通过 B+ 树或哈希拉链法实现,以满足高性能的插入与查询)
  • 倒排表(Posting List):记录了单词对应的文档结合,由倒排索引组成。
    文档ID
    词频 TF - 该单词在文档中分词的位置。用于语句搜索
    位置(Position)- 单词在文档中分词的位置,用于语句搜索
    偏移(Offset)- 记录单词的开始结束位置,实现高亮显示。

倒排表(Posting List)

倒排表记录了对应单词(Term Dictionary)所出现的的文档ID等信息。并且为了搜索的时延肯定需要放在内存中,面对海量的文档必然会存在更多量级的倒排表,为了节约空间,肯定是需要一定的压缩算法。

FOR:(Frame Of Reference)

假设某个包含某个 单词 (Term Dictionary)的文档出现了100W次,那么其对应的倒排表就会非常的大,按1个int占用空间为 4 Byte 计算,仅这么倒排表中的一项就要消耗 3.8MB 空间。

如上图所示,我们知道一个1个int是4字节,一个字节最大可以存正21亿,1个bit可以存2个数,2个bit可以存4个数(0,1,2,3)。那么假设我们存的都是非常小的数字能否将存储所占空间压下来呢。如果我们只取 posting list 中的数字差值,这将是一个非常小的数字,比如上图是100W个1。这样我们通过只取差值,得到了一个100W个1的列表,并将每个元素只耗费1bit存储了下来。这样可以压缩32倍存储空间。

但事实是,一般没有这么理想的状态。

相关推荐
微三云、小叶12 小时前
新型消费积分商业模式拆解:盈利架构、衰减铸造模型与项目风控要点
架构·软件开发·商业模式·本地生活·商业思维·私域运营
SilentSamsara12 小时前
Python 微服务全链路:gRPC + 链路追踪 + 服务网格接入
开发语言·分布式·python·微服务·架构
candyTong12 小时前
Claude Code 的工具延迟加载机制
架构
葫芦和十三12 小时前
执行拓扑|Agent 不只是会什么,还要怎么跑
架构·agent·ai编程
国科安芯13 小时前
国科安芯推出商业航天级抗辐照半双工 RS485 收发器 ASC485S2Y
前端·单片机·嵌入式硬件·架构·安全性测试
小小龙学IT13 小时前
Go 后端开发实战:从单机千QPS到十万级微服务架构的演进之路
微服务·架构·golang
java_cj13 小时前
Caffeine+Redis两级缓存架构实战:从手动实现到自定义注解的完整方案
缓存·架构
kcuwu.14 小时前
Claw Code 项目架构万字解读
人工智能·架构
Rain50915 小时前
mini-cc 终端 UI:用 React 写 CLI 是什么体验
前端·人工智能·react.js·ui·架构·前端框架·ai编程
愚公搬代码15 小时前
【愚公系列】《移动端AI应用开发》014-DeepSeek API开发与集成(处理多轮对话与动态请求)
人工智能·中间件·架构