每天学一个算法--Top-K 查询（Top-K Retrieval）

📘 教案 26：Top-K 查询（Top-K Retrieval · 工程级）

一、问题模型

给定一组对象 (X={x_1,\dots,x_n})，每个对象有评分函数 (s(x))。

目标是在不完全排序的前提下，返回得分最高的 (K) 个对象：

TopK=arg,topK⁡x∈X;s(x)\]\[ \\text{TopK} = \\operatorname\*{arg,topK}_{x \\in X} ; s(x) \]\[TopK=arg,topKx∈X;s(x)

约束：

(n) 很大（可达百万/亿级）
评分计算可能昂贵（如多特征组合）
内存与延迟受限（在线查询）

二、为什么不能"先全排序"

完全排序复杂度：

O(nlog⁡n)\]\[ O(n \\log n) \]\[O(nlogn)

而 Top-K 只需要前 (K) 个，理论下界为：

Ω(n)\]\[ \\Omega(n) \]\[Ω(n)

工程目标是接近线性扫描 + 小规模维护。

三、三类基础解法（从内存到流式）

1. 小顶堆（Min-Heap）------标准在线方案

维护一个容量为 (K) 的小顶堆（堆顶为当前第 (K) 大）：

依次扫描元素
若堆未满：直接入堆
若已满且 (s(x) > heap_top)：弹出堆顶并插入

复杂度：

O(nlog⁡K)\]\[ O(n \\log K) \]\[O(nlogK)

性质：

单次查询稳定可控
适合在线/流式数据

2. Quickselect（选择算法）------离线高效

基于分区（partition），找到第 (K) 大的阈值 (t)，再筛选：

期望复杂度：(O(n))
最坏：(O(n^2))（可用 BFPRT 保证线性上界）

流程：

选择 pivot
分区得到"≥ pivot"的区间
递归到包含第 (K) 大的区间
以阈值 (t) 过滤并（可选）对前 (K) 再做小范围排序

适用：离线批处理、一次性计算

3. 有序容器（Tree/SkipList）

维护大小为 (K) 的有序集合：

插入/删除：(O(\log K))
查询最小（阈值）：(O(1))

与小顶堆等价，但便于区间操作/去重/更新。

四、评分函数与"延迟计算"

在搜索系统中，评分常为：

s(d,q)=∑i∈qwi⋅fi(d)\]\[ s(d,q) = \\sum_{i \\in q} w_i \\cdot f_i(d) \]\[s(d,q)=∑i∈qwi⋅fi(d)

计算昂贵，因此采用：

分阶段评分（two-stage ranking）
1. 召回（粗排）：轻量特征 + Top-K（如 K=1000）
2. 精排：复杂模型（ML/深度模型）在候选集上计算
延迟计算（lazy evaluation）：仅当候选进入"可能 Top-K 区间"时才计算重特征

五、与倒排索引的耦合（关键）

查询 (q) 会产生多个 posting list：

L1,L2,...,Lm\]\[ L_1, L_2, \\dots, L_m \]\[L1,L2,...,Lm

需要在合并与评分的同时做 Top-K。两种主流策略：

1. 文档优先（DAAT, Document-at-a-Time）

以 docID 对齐多个列表
对同一 doc 汇总分数后更新 Top-K（堆）

优点：实现简单、稳定
缺点：可能对很多低分文档也计算评分

2. 词项优先（TAAT, Term-at-a-Time）

逐个词项扫描其列表并累加分数（用数组/哈希存 doc→score）
最后做 Top-K（堆或选择算法）

优点：便于利用稀疏性
缺点：需要较大临时空间

六、阈值算法（TA / NRA）------提前停止

为避免"扫描完所有数据"，使用上界估计实现早停。

基本思想（Threshold Algorithm, TA）

对每个词项维护一个按贡献排序的列表（或能给出上界）
交替访问各列表，逐步看到候选
维护当前 Top-K 的最小分数 (\tau)（堆顶）
同时维护一个全局上界 (U)

当：

τ≥U\]\[ \\tau \\ge U \]\[τ≥U

即可提前终止（剩余未见元素不可能超过当前第 K 名）

关键点

需要可计算的单调上界（如各特征最大可能贡献之和）
在 IR 中常结合 BM25 的上界估计

七、Top-K 的 I/O 与内存策略

1. 分块扫描 + 局部 Top-K

对数据分块（如每块 1e5）
每块做局部 Top-K
再对所有局部结果做一次全局 Top-K（堆或选择）

复杂度近似：

O(nlog⁡K)但缓存更友好\]\[ O(n \\log K) \\quad \\text{但缓存更友好} \]\[O(nlogK)但缓存更友好

2. 外部 Top-K（数据超内存）

每个 run 维护局部 Top-K
多路归并时同步维护全局 Top-K（与外部排序结合）
I/O 以顺序读为主

3. 近似 Top-K（当延迟极严）

采样（reservoir / 分层采样）
量化评分（bucketization）
早停阈值更激进

八、并行与分布式

1. 分片（Sharding）

数据按 docID 或倒排分片
每个分片本地计算 Top-K（(K') 通常取 (K \times \alpha)，(\alpha>1)）

2. 汇总（Aggregator）

收集各分片的候选（总计 (S \times K')）
做最终 Top-K（堆/选择）

3. 负载与延迟

调整 (K') 与分片数权衡召回率与网络开销
使用并行 RPC、超时截断与降级策略

九、复杂度与选择建议

场景	推荐方案	复杂度
在线流式	小顶堆	(O(n \log K))
离线批处理	Quickselect	期望 (O(n))
倒排检索	DAAT + 堆 / TA	依数据分布，常显著早停
分布式	分片局部 Top-K + 汇总	近似 (O(\frac{n}{S}\log K))

十、实现要点（易错与优化）

堆大小固定为 (K)，避免无界增长
评分函数单调分解，便于做上界（TA）
缓存友好：顺序扫描、减少随机访问
向量化/批处理：批量计算特征
去重与更新：同一 doc 多次命中时需合并分数
稳定性：分数相同的 tie-break（如 docID）

十一、结论性表述

Top-K 查询通过在全量数据扫描过程中维护一个固定规模的候选集，并结合阈值上界与分阶段评分，实现对高分元素的高效选择，其性能取决于 (K) 的规模、评分函数的可分解性以及是否能够进行早停。