Elasticsearch-4--倒排索引的原理?

1、什么是倒排索引?

1、与"正排索引"对比

(1)、正排索引 (Forward Index)

定义:以文档为单位组织数据。记录每个文档中包含了哪些词语。

映射方向:文档(Document) → 词语列表(Term List) 。(如数据库的行式存储)。

示例:Doc1 → ["lucene", "search", "engine"]
特点:

  • 结构直观,类似于文档的原始内容表示。
  • 在搜索引擎中,通常作为构建倒排索引的中间步骤。
  • 查询效率低:当需要查找包含某个特定词(如 "search")的所有文档时,必须遍历所有文档的词语列表,时间复杂度高。
(2)、倒排索引 (Inverted Index)

定义:以词语为单位组织数据。记录每个词语出现在哪些文档中。

映射方向:词语(Term) → 包含该词的文档列表(Posting List) 。(如搜索引擎的列式存储)。

示例:"search" → [Doc1, Doc3, Doc5]
特点:

  • 是现代搜索引擎(如 Elasticsearch, Lucene)的核心数据结构。
  • 查询效率极高:对于关键词搜索,可以直接通过词语定位到所有相关文档列表,无需扫描全部文档。
  • 通常还会在文档列表中存储额外信息,如词频(TF)、位置(Position)、偏移量(Offset)等,用于相关性评分和高亮显示。
(3)、对比


总结:
正排索引是基础,倒排索引才是实现高效全文检索的基石。

2、倒排索引的核心组成

一个完整的倒排索引由两部分构成。

1、词典(Term Dictionary)

存储所有唯一的词项(Term),并按字典序排列。

  • 存储所有唯一的词项(Terms)
  • 通常用有序数组、Trie、FST(Finite State Transducer)实现
  • 支持快速查找:"lucene"是否存在?位置在哪?

2、倒排表(Posting List)

每个词项对应的文档列表,记录包含该词项的文档ID、词频(Term Frequency)、位置(Position)等信息。

每个词项对应一个倒排表,记录:

  • 文档ID(DocID)
  • 词频(TF, Term Frequency)
  • 位置(Position) → 用于短语查询"big data"
  • 偏移(Offset) → 用于高亮显示
  • Payload → 自定义数据(如权重、标签)

3、构建倒排索引步骤示例

假设有3个文档。

(1)、分词与处理(Analyzer)

Doc1: [lucene, search, engine]

Doc2: [elasticsearch, uses, lucene]

Doc3: [search, engine, lucene]

一般分词器会去掉停用词如:"is", "a", "with"

(2)、构建词典和倒排表


说明:

  • Term: 词项(词语)。
  • DocFreq: 文档频率(Document Frequency),表示包含该词项的文档数量。
  • Posting List: 倒排列表,包含每个包含该词项的文档信息。
    • 格式 [DocID:TF:Positions] 中:
      • DocID: 文档ID。
      • TF (Term Frequency): 该词项在对应文档中的出现次数(词频)。
      • Positions: 该词项在对应文档中的位置(通常指在分词后的词语序列中的索引,从0开始)。
    • 示例:[1:1:[0]]表示文档1,出现1次,位置0

3、倒排索引的构建流程

1、文档解析与分析

(1)、分词(Tokenization)
  • 分词(Tokenization):
    • 使用分词器(Tokenizer)将文本拆分为词项。例如:
      • 英文:"The quick brown fox" → ["the", "quick", "brown", "fox"]。
      • 中文:依赖分词器(如IK Analyzer、Jieba)将连续文本切分为有意义的词汇。
(2)、过滤
  • 过滤(Filtering):
    • 去除停用词(如"the", "is")。
    • 词干提取(Stemming):将变形词还原为词根(如"running" → "run")。
    • 同义词扩展:将"car"和"automobile"视为同一Term。

2、内存缓冲(In-Memory Buffer)

文档分词后,Term和文档ID临时存储在内存中。同时记录Term的频率和位置信息。Lucene使用FST(Finite State Transducer)在内存中临时存储。

  • Term → TermID映射
  • Document → Term列表

有限状态转换器FST(Finite State Transducer)是一种紧凑的有限状态机,支持高效前缀匹配和模糊查询。

  • Lucene使用FST存储Term字典,支持前缀压缩和快速查找。
  • 例如,Term "apple"和"app"共享前缀"app",节省内存。

3、生成 Segment(段)

当内存缓冲区满或达到刷新间隔(如Elasticsearch的1秒 ),将数据写入磁盘生成Segment

Segment内部文件结构:

说明:

  • 所有文件都是只读的。
  • Segment是Lucene的最小可搜索单元。

4、合并 Segment(Merge)

  • 多个小Segment会影响查询性能(需查多个文件)。
  • Lucene定期执行Merge,将多个小Segment合并为大Segment
  • 合并过程中会:
    • 清除已删除文档
    • 压缩Posting List
    • 重建词典

注意:Merge是I/O密集型操作,但对性能至关重要。

5、分布式实现(如Elasticsearch)

  • 文档路由到分片:
    • 根据文档ID的哈希值%分片数确定目标分片。
    • 主分片(Primary Shard)负责写入,副本分片(Replica Shard)同步数据。
  • 事务日志(Translog):
    • 写入内存缓冲区时记录日志,防止数据丢失。
    • 定期(如每5分钟)持久化到磁盘并清空缓冲区(Flush操作)。

4、倒排索引的查询流程

以查询"lucene AND search"为例。

1、解析查询语句

java示例:

java 复制代码
Query query = new BooleanQuery.Builder()
    .add(new TermQuery(new Term("content", "lucene")), BooleanClause.Occur.MUST)
    .add(new TermQuery(new Term("content", "search")), BooleanClause.Occur.MUST)
    .build();

2、查找词项

  • 在.tim/.tip文件(单词表文件)中查找"lucene"和"search"。
  • 获取它们的TermID和倒排表指针。

注意:为了加快读取速度,lucene进行的优化。

  • 查询缓存(Query Cache):
    • 缓存频繁查询的Posting List结果(如过滤条件)。
  • 热词预热:
    • 提前加载高频Term的Posting List到内存。

3、读取倒排表

  • 并行读取两个倒排表。
    • lucene → [1,2,3]
    • search → [1,3]

4、求交集(Intersection)

  • 使用双指针算法或Skip List快速求交。
java 复制代码
  [1,2,3]
   ↑
  [1,3]
   ↑
  → 公共DocID: [1,3]

5、计算相关性得分(Scoring)

使用BM25算法计算每个文档的相关性。

示例:

score(D, Q) = Σ BM25(t in Q)

其中:

  • t是查询词项
  • BM25考虑:词频(TF)、逆文档频率(IDF)、字段长度归一化

注意:Lucene默认使用BM25(比TF-IDF更先进)

6、排序并返回Top-K

  • 按得分排序
  • 返回前N个文档(支持分页)

5、倒排表的压缩技术(关键优化)

Posting List可能非常大,Lucene使用多种压缩技术。

1、Delta Encoding(差值编码)

  • DocID通常是递增的,存储差值而非原始值
  • 例如:[100, 102, 105] → [100, 2, 3]

2、Variable-Byte Encoding(VBCode)

  • 小整数用1字节存储,大整数用多字节
  • 节省空间,适合Posting List

3、PForDelta/Simple16

  • 高效压缩整数数组
  • 支持快速随机访问

4、Roaring Bitmap

  • 对于高频词(如"the"),使用位图代替列表
  • 极致压缩 + 快速集合运算(AND/OR)

6、Lucene中的高级结构:FST(Finite State Transducer)

1、什么是FST?

FST(有限状态转换器)是一种有向图 数据结构,它扩展了FSA (Finite State Automaton, 有限状态自动机)。FST不仅可以判断一个字符串是否存在于集合中,还能将输入的字符串映射到一个输出值 (例如,一个整数、另一个字符串或一个复杂对象)。

在Lucene的语境下,FST主要用于词典(Term Dictionary)的实现。

它的核心功能是:

输入:一个词项(Term),例如 "search"。

输出:该词项对应的元数据信息,例如在.tim文件中的偏移量指针、文档频率(DocFreq)等,这些信息用于快速定位和读取倒排列表。

2、FST是怎么实现的?(核心机制)

Lucene的FST实现(主要在org.apache.lucene.util.fst包中)基于以下几个关键设计。

(1)、状态(State)与弧(Arc):

状态(State):图中的节点。每个状态代表处理输入字符串过程中的一个中间点。

弧(Arc):连接状态的有向边。每条弧上标记着:

  • 输入标签(Input Label):通常是一个字符(或字节)。
  • 输出值(Output):一个可以累积的数值(在Lucene中通常是long类型)。这个输出值是FST强大功能的核心。
    从起始状态开始,沿着弧根据输入字符进行转移,最终到达一个终态。
(2)、路径输出的累积:

当从起始状态遍历到终态时,路径上所有弧的输出值会进行累积(通常是求和)。

这个累积的总输出值就是该输入字符串(词项)所映射的最终结果。

示例:查找"sea"。

  • s -> 弧输出100 -> 状态A
  • e -> 弧输出20 -> 状态B
  • a -> 弧输出5 -> 终态
  • 最终输出 = 100 + 20 + 5 = 125。这个125可能就是词项"sea"在索引文件中的偏移量。
(3)、高度压缩与共享:
  • 前缀共享(Prefix Sharing):这是FST空间效率高的根本原因。所有具有相同前缀的词项(如 "search", "seek", "sea")会共享从起始状态到分叉点之前的路径。

  • 后缀共享 (Suffix Sharing):更进一步,FST构建算法(通常是基于排序的)会尝试让具有相同后缀的路径也进行共享。例如"cat", "bat", "hat"的后缀"at"可以共享。

  • 最小化 (Minimization):构建过程会生成一个最小化的FST,即在保证功能相同的前提下,拥有最少的状态和弧。这极大地减少了存储空间。

(4)、与磁盘文件的结合:

FST本身存储的是词项到元数据指针的映射。

这个元数据指针(即FST查询的输出值)通常指向.tim文件中的某个位置,那里存储着更详细的词典信息(如词频、指向 .doc/.pos文件的指针等)。

.tip (Term Index)文件可以看作是一个"超级FST的索引",它存储了.tim文件中大块FST数据块的入口指针,用于加速对.tim文件的随机访问。

3、FST优势

Lucene选择FST作为词典实现,是为了解决大规模索引中词典存储和查询的效率问题,其优势如下。

(1)、空间效率极高(High Space Efficiency)

核心优势。通过前缀和后缀的深度共享,FST能够以极小的空间存储海量的词项。这对于搜索引擎动辄数百万、上亿词项的场景至关重要。相比于简单的哈希表或Trie,FST的空间占用要小得多。

(2)、支持高效的前缀查询(Prefix Query)

由于前缀共享,查找所有以"searc"开头的词项非常高效。算法可以快速定位到代表"searc"的状态,然后遍历从该状态出发的所有路径,即可得到所有匹配的词项及其输出值。

(3)、支持模糊查询(Fuzzy Query)

FST可以相对高效地支持基于编辑距离(Levenshtein Distance)的模糊查询。算法可以在状态图上进行"容错"遍历,允许一定次数的插入、删除、替换操作,找到与查询词项编辑距离在阈值内的所有词项。

(4)、查询性能优秀(Good Query Performance)

查找一个词项的时间复杂度接近O(词项长度)。虽然比哈希表的O(1)稍慢,但考虑到其巨大的空间优势,这个查询速度对于搜索引擎来说是完全可以接受的,并且远快于线性扫描。

(5)、支持复杂映射(Supports Complex Mapping):

FST的"转换"特性允许它将字符串映射到任意(可累积的)数值。Lucene利用这一点,将词项映射到其在磁盘文件中的物理位置(偏移量),实现了词典逻辑与物理存储的解耦。

(6)、支持正则匹配 (Regular Expression Matching):

FST本质上是正则语言的接受器,因此可以支持正则表达式查询。

总结来说,**Lucene采用FST是一个在空间和时间复杂度之间取得卓越平衡的设计。它牺牲了哈希表极致的查询速度(O(1)),换来了数量级上的空间压缩,并同时获得了对前缀、模糊、正则等复杂查询的天然支持。**这种设计使得Lucene能够在有限的硬件资源下,构建和维护极其庞大的倒排索引,是其高性能的关键基石之一。

7、实现示例

1、Lucene的倒排索引实现

  • Segment结构:
    • 每个Segment包含:
      • Term Dictionary:FST存储。
      • Posting List:按文档ID排序并压缩。
      • 字段存储(Stored Fields):原始文档字段值。
  • 实时搜索优化:
    • 默认1秒刷新(Refresh)生成新Segment,实现近实时(NRT)搜索。

2、Elasticsearch的分布式索引

写入流程:

1、客户端发送请求到协调节点(Coordinating Node)。

2、协调节点路由文档到主分片(Primary Shard)。

3、主分片写入内存缓冲区和Translog,同步到副本分片(Replica Shard)。

4、定期刷新生成Segment,合并优化。

8、倒排索引vs正排索引vs列存(Doc Values)


注意:

  • 倒排索引适合"找包含某词的文档"
  • Doc Values适合"按price排序"或"按category聚合"

9、Lucene中如何查看倒排索引?

可以使用Lucene自带的IndexReader查看索引内容。

java示例:

java 复制代码
Directory directory = FSDirectory.open(Paths.get("/path/to/index"));
IndexReader reader = DirectoryReader.open(directory);

// 获取某个字段的Terms
Terms terms = reader.terms("content");
TermsEnum termsEnum = terms.iterator();

while (termsEnum.next() != null) {
    BytesRef term = termsEnum.term();
    System.out.println("Term: " + term.utf8ToString());
    
    // 获取倒排表
    PostingsEnum postings = termsEnum.postings(null);
    while (postings.nextDoc() != PostingsEnum.NO_MORE_DOCS) {
        int docId = postings.docID();
        int freq = postings.freq(); // 词频
        System.out.println("DocID: " + docId + ", Freq: " + freq);
    }
}

10、总结:倒排索引的核心要点

倒排索引通过词项到文档的映射解决了大规模文本数据的快速检索问题。其构建流程包括分词、排序、Segment生成和合并优化,结合压缩、缓存、分布式等技术进一步提升性能。无论是Lucene的单机实现,还是Elasticsearch的分布式架构,倒排索引都是高效搜索的核心基础。实际应用中需结合分词、压缩和分布式策略,平衡存储成本与查询效率。

重点:

为什么倒排索引如此高效?

  • 空间换时间:预构建索引,牺牲存储换取查询速度。
  • 只读设计:Segment不可变,便于缓存和并发读。
  • 分治思想:大索引拆分为多个Segment,支持并行处理。
  • 压缩优化:减少磁盘I/O,提升缓存命中率。

向阳前行,Dare To Be!!!

相关推荐
q***07142 小时前
【分布式】Hadoop完全分布式的搭建(零基础)
大数据·hadoop·分布式
張萠飛3 小时前
Phoenix+Hbase和Doris两个方案如何选择,能不能拿Doris完全替代Phoenix+Hbase?有什么难点?
大数据·数据库·hbase
黄雪超9 小时前
从流批一体到湖仓一体架构演进的思考
大数据·架构·数据湖
songyuc11 小时前
【Git】请帮忙解释一下“git reset”
git·elasticsearch
Elastic 中国社区官方博客13 小时前
Observability:适用于 PHP 的 OpenTelemetry:EDOT PHP 加入 OpenTelemetry 项目
大数据·开发语言·人工智能·elasticsearch·搜索引擎·全文检索·php
Elasticsearch18 小时前
用 AI 驱动的威胁狩猎提升公共部门的网络防御
elasticsearch
白鲸开源18 小时前
实战干货:Apache DolphinScheduler 参数使用与优化总结
大数据·程序员·开源
yumgpkpm19 小时前
CMP(类Cloudera CDP 7.3 404版华为Kunpeng)与其他大数据平台对比
大数据·hive·hadoop·elasticsearch·kafka·hbase·cloudera
JZC_xiaozhong19 小时前
跨系统流程如何打通?选 BPM 平台认准这三点
大数据·运维·自动化·数据集成与应用集成·业务流程管理·流程设计可视化·流程监控