【lucene】向量搜索底层文件关系梳理

risc1234562025-07-28 11:29

下面用"一张图 + 两条流程"把 **`.vec` / `.vem` / `.vex`** 三件套以及 **HNSW vs 暴力搜索** 时如何配合这三个文件彻底讲清。

1️⃣ 三文件的角色与内容

| 文件 | 别称 | 存什么 | 大小特点 |

|---|---|---|---|

| `.vec` | Vector Data | **原始 float 向量**（维度×4 bytes，按 ord 连续排列） | 最大，> GB 级 |

| `.vem` | Vector Metadata | **索引目录**：<br>- 维度、总数<br>- ord → byte offset 表<br>- 压缩信息 | 小，几十 KB |

| `.vex` | Vector Index (HNSW) | **纯图结构**：<br>- 层数、入口节点<br>- 每层邻居列表（只存 ord） | 中等，几十 MB |

> 三者共同前缀是 `<segment>_<field>_Lucene99HnswVectorsFormat_X` 。

2️⃣ 文件之间的"指针"关系

```

.vex 节点 ord ───────────┐

│

.vem offsets $ord$ ───────┘ → byte offset → .vec 读 float\[\]

```

**`.vex`** 只给"节点号"
**`.vem`** 把节点号翻译成 **`.vec` 中的精确字节地址**
**`.vec`** 存放真正的向量值

3️⃣ 两种搜索如何使用三文件

✅ HNSW 近似搜索流程

**入口**：`HnswGraphSearcher.search(...)`
**图遍历**：

从 `.vex` 读层、邻居 ord。

**按需解码向量**：

对每个候选 ord → 查 `.vem` 得 offset → seek `.vec` → 取 float\[\]。

**计算距离**：用 `RandomVectorScorer` 算分并收集。

> 只访问 **极少量** 向量和图节点，所以快。

✅ 暴力精确搜索流程

**触发条件**：`k >= scorer.maxOrd()`
**线性扫描**：

for (ord = 0 .. maxOrd-1)

**同样三文件**：

每个 ord → 查 `.vem` 得 offset → seek `.vec` → 取 float\[\]。

**无图参与**：**不读 `.vex`**，顺序读 `.vec`。

> 访问 **全部向量**，但借助 `.vem` 仍是 **O(1) 随机 seek**，而非顺序全读盘。

4️⃣ 一句话总结

**`.vec`** 是"仓库"，**`.vem`** 是"索引目录"，**`.vex`** 是"楼层导航图"。
**HNSW** 用三件套做"跳读"，**暴力搜索** 跳过 `.vex` 直接扫 `.vec`，但都靠 `.vem` 快速定位向量。

上一篇：【Datawhale AI夏令营】科大讯飞AI大赛（大模型技术）/夏令营：让AI理解列车排期表

下一篇：统计字符数错一半，我被 length 坑了两次

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……