Elasticsearch 的倒排索引原理

🕵️‍♀️ Elasticsearch 的核心：倒排索引原理

Elasticsearch 是基于 Apache Lucene 库构建的，而倒排索引正是 Lucene 的基石。它彻底颠覆了传统数据库按行存储和查找的模式，实现了基于内容的快速定位。

要理解倒排索引，我们先看传统的 正排索引 (Forward Index)，即关系型数据库（如 MySQL）的索引：

在正排索引中，我们需要遍历文档内容（或至少索引的字段）来查找包含特定词语的文档。

倒排索引 则采取了相反的逻辑：它不再根据 文档 ID 查找内容，而是根据 "词条 (Term)" 来查找它出现在哪些 文档 ID 中。

倒排索引由两大核心部分组成：

当一个新文档被写入 Elasticsearch 时，它会经历一个称为 分析 (Analysis) 的过程，并最终构建成倒排索引的结构。

ES 使用分析器 (Analyzer) 对文本字段进行处理。分析器通常包含三个阶段：

字符过滤器 (Character Filters): 处理原始文本，例如删除 HTML 标签或将全角字符转为半角。
分词器 (Tokenizer): 将处理后的文本拆分成独立的词条 (Tokens)。例如，将句子拆分成单词。
词条过滤器 (Token Filters): 对词条进行标准化处理，例如：
- 小写化 (Lowercasing): 将 "Winter" 变为 "winter"。
- 停用词过滤 (Stopword Removal): 删除常见的、对搜索相关性贡献不大的词（如 "is", "a", "the"）。
- 词干提取 (Stemming): 将不同形式的单词还原为词根（如 "coming" 变为 "come"）。

示例： 原始文档内容为 "A quick Brown fox is running."

经过分析后，可能会生成以下词条：[quick, brown, fox, run]

为每个生成的词条创建一个记录，记录该词条所在的 文档 ID 以及更多信息（如词频、位置）。

完整的倒排列表 (Full Inverted Index) 通常包含以下关键信息：

查询速度的秘诀： 在查询时，ES 只需要在排好序的词条字典中查找目标词条，然后直接获取对应的 DocID 列表，而无需扫描任何文档内容。这使得查询速度比传统数据库快了几个数量级。

当用户发起一个查询（例如：查询包含 "quick fox" 的文档）时：

查询分析： 用户输入的查询字符串也被同样的分析器处理，生成查询词条：[quick, fox]。
词条查找： ES 在倒排索引的词条字典中分别查找 "quick" 和 "fox"。
DocID 取交集/并集：
- 查找 "quick" 对应的 DocID 列表 (Posting List A)。
- 查找 "fox" 对应的 DocID 列表 (Posting List B)。
- 如果使用 AND (bool/must)，则取 A 和 B 的交集，得到最终符合条件的文档 ID 集合。
计算相关性评分 (_score)： 使用 BM25 算法 等评分模型，结合词频 (TF)、逆文档频率 (IDF) 等因素，计算每个匹配文档与查询的相关性分数。
排序与返回： 根据计算出的 _score 对文档进行排序，将得分最高的文档及其内容返回给用户。

在 Elasticsearch 中，倒排索引用于搜索，而正排索引（主要以 Doc Values 的形式存储）则用于排序、聚合和脚本操作。

特性	倒排索引 (Inverted Index)	正排索引 (Forward Index / Doc Values)
结构	词条 -> $DocID, TF, Position$	DocID -> $词条列表, 字段值$
主要用途	全文搜索、相关性排名	排序 (Sort)、聚合 (Aggregation)、字段访问
查询方式	根据关键词快速定位文档。	根据文档 ID 快速获取字段的原始值。

倒排索引是 Elasticsearch 成为世界领先的全文搜索引擎的关键。它用空间（额外的索引结构）换取了时间（极快的搜索速度）。