【lucene】BlockMaxConjunctionScore

risc1234562025-07-30 14:23

`BlockMaxConjunctionScorer` 是 Lucene 8.5+ 引入的一个高性能交集打分器（conjunction scorer），专门用于处理多条件"与"查询（AND 查询）的场景。它基于 Block-Max WAND（BMW）算法，可以提前跳过不具竞争力的文档块（block），从而显著减少倒排表的解码和打分开销。

✅ 核心原理一句话总结：

> 在求多个倒排链交集时，先用每个 term 的 block-max 分数上界快速过滤掉不可能进入 Top-K 的文档块，只对可能的高分块进行精确打分和交集计算。

✅ 工作流程（简化）

分块（block）：倒排链按 docId 分段。
预聚合最大分数：每个 block 记录该块内 term 的 maxScore。
跳过策略：

如果某 block 的 sum(maxScore) < minCompetitiveScore，则整个 block 被跳过。
如果当前 doc 的 maxScore < minCompetitiveScore − 其他子句 maxScore，则该 doc 被跳过。

精确打分：仅对可能进入 Top-K 的候选 doc 进行完整打分和交集验证。

✅ 与普通 `ConjunctionScorer` 的区别

特性 ConjunctionScorer BlockMaxConjunctionScorer

算法传统双指针合并 Block-Max WAND

跳过能力无跳过不具竞争力的 block/doc

适用场景精确打分只关心 Top-K 结果

性能较慢（全量）快（大量跳过）

是否支持 `ScoreMode.TOP_SCORES` 否是（8.5+ 默认启用）

✅ 触发条件

仅在 BooleanQuery 中所有子句为 MUST 且 ScoreMode = TOP_SCORES 时被自动使用。
示例：

```java

BooleanQuery.Builder b = new BooleanQuery.Builder();

b.add(new TermQuery(new Term("title", "lucene")), BooleanClause.Occur.MUST);

b.add(new TermQuery(new Term("lang", "en")), BooleanClause.Occur.MUST);

// 当 ScoreMode.TOP_SCORES 时，内部会构造 BlockMaxConjunctionScorer

```

✅ 总结一句话

> `BlockMaxConjunctionScorer` 是 Lucene 8.5+ 对多条件 AND 查询的 Top-K 优化利器，通过 block-max 上界 + 提前跳过技术，大幅减少不必要的倒排解码与打分，显著提升性能。