【Lucene】lucene的searcher.search查询机制

risc1234562025-07-25 14:26

lucene查询的时候也是先评分排序，最后才获取文档甚至获取文档都不是必须的？

是的，你的理解完全正确。

IndexSearcher.search(...) 在内部先创建 `Weight`、`Scorer`，再交给 Collector 遍历倒排表。
Collector（如 TopScoreDocCollector）一边遍历一边实时计算 score 并维护一个优先队列（PriorityQueue），因此"打分 → 排序"发生在遍历倒排表阶段。
TopDocs 返回的只是 "docId + score" 的堆顶列表；真正的 `Document` 对象此时并未加载。

只有当你调用 `searcher.doc(docId)` 或 `IndexSearcher.doc(...)` 时，Lucene 才会根据 docId 去 stored fields 做随机读；
如果你只需要命中数、聚合、统计、自定义 Collector 计算，完全可以不取回 Document，从而节省大量 IO。

```java

TotalHitCountCollector c = new TotalHitCountCollector();

searcher.search(query, c);

System.out.println("命中：" + c.getTotalHits()); // 无 Document 加载

```

阶段是否发生是否必须

倒排表遍历 + 打分 + 排序 ✅ ✅

加载 stored fields 取 Document ✅ ❌（按需）

因此，Lucene 可以在完全不取回 Document 的情况下完成一次查询，这正是它高性能的关键之一。