【Lucene/Elasticsearch】数据类型（ES 字段类型）

【Lucene/Elasticsearch】数据类型（ES 字段类型） | 底层索引结构

risc1234562025-07-15 20:14

在 Lucene/Elasticsearch 中，**BKD 树只负责"多维数值"字段**。其余类型仍走传统的 **倒排索引** 或专用格式：

| 数据类型（ES 字段类型） | 底层索引结构 | 说明 |

|---|---|---|

| `text`、`keyword`（字符串） | **倒排索引 + 正排 doc values** | 分词或不分词的倒排列表 |

| `boolean` | **倒排索引**（T/F 两个 term） | 简单布尔过滤 |

| `binary` | **DocValues（行存）** | 原始字节，仅存储/检索，不索引 |

| `object`、`nested`、`flattened` | **子字段递归索引** | 内部仍是倒排/BKD 组合 |

| `range`（整数/日期/浮点范围） | **BKD 树** | 虽然类型叫 range，底层仍存成"低维 BKD 点" |

| `token_count` | **倒排索引** | 实际上是对字符串计数后存数值 |

| `completion`、`search_as_you_type` | **专用 FST** | 用于前缀/补全，不走倒排 |

一句话总结：

**除了字符串、布尔、二进制等"非数值/非地理/非向量"字段，其余多维数值类（含 range）默认都走 BKD；其余走倒排或专用结构。**

词典之上再建 FST（Finite State Transducer）二级索引，压缩前缀后缀，实现毫秒级前缀/模糊查询先查哪个索引呢？

查询顺序是 **先查 FST，再查倒排表**：

• 先根据用户输入的前缀或模糊模式，在 **FST** 里快速定位到 **所有候选 term** 的起止位置。

• FST 只占用词典前/后缀压缩后的字节数组，**毫秒级**就能拿到候选 term 列表。

• 拿到候选 term 后，再跳到 **倒排索引** 的相应偏移量，读出每个 term 的文档号列表、位置等信息。

• 这一步是磁盘或 mmap 读取，**条数多时可能涉及顺序扫描**。

> **前缀/模糊查询时，先通过内存里的 FST 秒级筛出候选词，再去倒排表里取真正的文档集合。**

【Lucene/Elasticsearch】 数据类型（ES 字段类型） | 底层索引结构