BKD 树(Block KD-Tree)Lucene

BKD 树(Block KD-Tree)是 Lucene 用来存储和快速查询 **多维数值型数据** 的一种磁盘友好型数据结构,可以把它想成:

> **"把 KD-Tree 分块压缩后落到磁盘上,既能做磁盘顺序读,又能像内存 KD-Tree 一样做范围/最近邻搜索。"**

核心要点(5 句话):

  1. **存储内容**

只存 **数值/日期/geo 点** 的多维坐标(int、long、float、double、geo_point ...),**不存文本倒排**。

  1. **结构**

• 依旧按 KD-Tree 方式递归切分维度;

• 每满 1024 个点就写成一个 **block**(顺序磁盘页),天然压缩 & 缓存友好。

• 所有叶子块再建一个 **内存索引**(min-max 值 + 文件指针),查询时先扫内存索引→定位少量磁盘块→顺序读,几乎无随机 IO。

  1. **支持的查询**

• 范围查询:price ≥ 50 AND price < 100

• 距离查询:geo_distance 5 km 内

• 最近邻:knn_vector search

复杂度 **O(log N)**,且由于顺序 IO,实际比 KD-Tree 在磁盘上快很多。

  1. **优点**

• 磁盘顺序读友好 → SSD/HDD 都高效

• 压缩率极高 → 同样数据体积 < 1/4 原始数组

• 支持 **实时增删改**(新文档追加新 block,后台合并)

  1. **在 Elasticsearch 中的位置**

• 所有 `long`, `integer`, `double`, `date`, `ip`, `geo_point`, `geo_shape`, `dense_vector` 字段,**默认**就用 BKD 树存维度数据;

• 因此 `range`, `geo_distance`, `knn` 查询都走 BKD 而非倒排索引。

一句话:

**BKD 树就是 Lucene 的"多维数值索引硬盘版",让范围/距离/最近邻查询在磁盘上也像内存 KD-Tree 一样快。**

相关推荐
我认不到你37 分钟前
JVM分析(OOM、死锁、死循环)(JProfiler、arthas、jdk调优工具(命令行))
java·linux·开发语言·jvm·spring boot
zhong liu bin42 分钟前
maven【maven】技术详解
java·ide·python·spring·maven·intellij-idea
七夜zippoe1 小时前
Java 技术支撑 AI 系统落地:从模型部署到安全合规的企业级解决方案(二)
java·人工智能·安全
孤狼程序员1 小时前
异常处理小妙招——1.别把“数据库黑话”抛给用户:论异常封装的重要性
java·数据库·mysql
java干货1 小时前
还在 @AfterEach 里手动 deleteAll()?你早就该试试这个测试数据清理 Starter 了
java·数据库·oracle
弗锐土豆2 小时前
编程基础-eclipse创建第一个程序
java·eclipse·helloworld·创建工程
Akshsjsjenjd3 小时前
Ansible 核心功能:循环、过滤器、判断与错误处理全解析
java·数据库·ansible
桦说编程3 小时前
使用注解写出更优雅的代码,以CFFU为例
java·后端·函数式编程
pythonpapaxia3 小时前
Java异常处理:掌握优雅捕获错误的艺术
java·开发语言·python·其他
kiwixing3 小时前
集群无法启动CRS-4124: Oracle High Availability Services startup failed
java·运维·数据库·mysql·postgresql·oracle