摘要
本文系统综述了信息检索领域的关键技术与算法发展历程。从基于关键词匹配的传统稀疏检索方法,到基于深度学习的稠密检索技术,再到结合两者优势的混合检索方案,以及多向量检索、学习式稀疏检索等前沿进展,本文全面分析了各类方法的理论基础、算法实现、优势局限及应用场景。研究表明,信息检索技术正朝着稀疏与稠密方法融合、效率与效果平衡、通用性与专业化结合的方向发展,为搜索引擎、问答系统和检索增强生成等应用提供强大支撑。
1 引言
信息检索(Information Retrieval, IR)是计算机科学的核心领域之一,致力于从大规模文档集合中精准高效地查找与用户需求相关的信息。随着互联网数据量的爆炸式增长和人工智能技术的快速发展,信息检索技术经历了从传统关键词匹配到现代语义理解的演变过程。
当前的信息检索系统需要解决几个关键挑战:词汇鸿沟问题 (同一概念的不同表达形式)、语义理解问题 (表面匹配与深层语义的差异)、效率与效果的平衡 (大规模数据下的实时响应)以及查询模糊性(短查询中的信息不足)。这些挑战推动了信息检索技术的不断创新与发展。
本报告将系统梳理信息检索主要技术路线,分析代表性算法的原理与特点,探讨各种方法的应用场景与发展趋势,为相关领域研究者和实践者提供技术参考。
2 稀疏检索:基于关键词匹配的传统方法
2.1 基本概念与技术原理
稀疏检索是信息检索中最传统且广泛应用的方法类别,其核心思想是通过高维稀疏向量表示文本,向量维度对应词汇表中的词项,值表示词项在文本中的重要性权重。这种方法基于词袋模型(Bag of Words),忽略词序和语法结构,依靠统计特征衡量文本相关性。
稀疏检索的优势在于高效性 (基于倒排索引实现毫秒级检索)、可解释性 (结果可直接追溯至匹配关键词)和无需训练数据(基于统计规律而非机器学习)。
2.2 代表性算法与技术
2.2.1 TF-IDF算法
TF-IDF(Term Frequency-Inverse Document Frequency)是最经典的权重计算方法,由词频(TF)和逆文档频率(IDF)两部分组成:
TF-IDF(t,d) = TF(t,d) × IDF(t)
其中:
TF(t,d) = count(t,d) / |d|
(词t在文档d中的出现次数除以文档总词数)IDF(t) = log(N / (df(t) + 1))
(总文档数N除以包含词t的文档数的对数)
TF-IDF的基本思想是:一个词项在文档中出现频率越高,同时在所有文档中出现频率越低,则其区分能力越强,权重越高。
2.2.2 BM25算法
BM25(Best Matching 25)是TF-IDF的改进和概率化版本,被认为是效果最优异的稀疏检索算法。BM25引入了词频饱和控制和文档长度归一化机制,解决了TF-IDF的两个主要缺陷:
BM25(D, Q) = Σ IDF(qi) × [tf(qi, D) × (k1 + 1)) / (tf(qi, D) + k1 × (1 - b + b × |D|/avgdl))]
其中k1和b是可调参数(通常k1∈[1.2,2.0],b=0.75),|D|是文档长度,avgdl是文档集合的平均长度。
2.2.3 BM25F算法
BM25F(Fielded BM25)是针对结构化文档的扩展版本,考虑不同字段(如标题、正文、摘要)的权重差异,对不同字段分别计算BM25得分后加权求和,适用于网页、学术论文等结构化文档检索。
表1:稀疏检索代表性算法对比
算法 | 核心思想 | 创新点 | 适用场景 |
---|---|---|---|
TF-IDF | 词频×逆文档频率 | 首次量化词项重要性 | 基础文本检索、特征加权 |
BM25 | 概率模型+长度归一化 | 控制词频饱和,归一化文档长度 | 通用文本检索、搜索引擎 |
BM25F | 多字段加权融合 | 区分不同字段的重要性 | 结构化文档检索 |
2.3 应用场景与局限性
稀疏检索广泛应用于传统搜索引擎、初步候选检索(作为第一级召回器)和精确关键词匹配要求高的场景。然而,稀疏检索也存在明显局限性:无法解决词汇鸿沟问题(对同义词、近义词、一词多义处理能力弱);语义理解能力有限;对长尾和复杂查询效果不佳。
3 稠密检索:基于语义理解的现代方法
3.1 基本概念与技术原理
稠密检索是基于深度学习的现代检索范式,通过神经网络模型将查询和文档映射到低维稠密向量空间(通常几百到几千维),然后计算向量相似度实现语义匹配。与稀疏检索不同,稠密检索能够捕捉文本深层语义信息,有效解决词汇鸿沟问题。
稠密检索的核心是文本嵌入技术,将文本转换为固定长度向量表示,语义相近的文本在向量空间中距离较近,语义相反的文本距离较远,语义无关的文本则几乎正交。
3.2 代表性算法与技术
3.2.1 DPR(Dense Passage Retrieval)
DPR提出双塔架构(Dual Encoder),使用两个独立的BERT编码器分别处理查询和文档,通过对比学习最大化相关文档对的向量相似度。损失函数使用负对数似然:L = -log(exp(s(q,d+)) / Σ exp(s(q,d-)))
。
3.2.2 ANCE(Asynchronous Negative Cache)
ANCE针对静态负样本不足的问题,提出异步渐进式负采样技术,在训练过程中动态刷新负样本池,选择当前模型最难以区分的"困难负样本"进行训练,显著提升模型区分能力。
3.2.3 Sentence-BERT与SimCSE
Sentence-BERT对BERT网络进行修改,通过池化操作获取固定长度的句子表示,使用孪生网络结构进行微调。SimCSE通过简单的对比学习框架,使用dropout作为数据增强手段,无需额外数据就能学习到高质量的句子嵌入。
3.2.4 BGE(BAAI General Embedding)
BGE提出指令感知嵌入(Instruction-aware Embedding),在查询端注入任务指令(如"为以下问题查找相关文档:"),提升了模型在多任务场景下的泛化能力。BGE-M3模型支持稠密检索、稀疏检索与多向量交互三模态融合。
表2:稠密检索代表性模型对比
模型 | 发布机构/时间 | 核心创新 | 训练数据需求 | 计算效率 |
---|---|---|---|---|
DPR | Facebook, 2019 | 双塔架构+对比学习 | 大量查询-文档对 | 高(编码后可快速检索) |
ANCE | Microsoft, 2020 | 异步困难负采样 | 大量查询-文档对 | 中(需动态更新负样本) |
Sentence-BERT | UKP Lab, 2019 | 孪生BERT+池化操作 | 句子对数据 | 高 |
SimCSE | Princeton, 2021 | Dropout作为数据增强 | 无监督版无需标注数据 | 高 |
BGE | 北京智源, 2023 | 指令感知嵌入 | 多任务训练数据 | 中 |
3.3 应用场景与局限性
稠密检索广泛应用于开放域问答、语义搜索引擎、推荐系统和检索增强生成(RAG)等场景,特别是在需要深度语义理解的复杂查询、同义词扩展、跨语言检索等任务中表现优异。然而,稠密检索也面临可解释性差、需要大量训练数据、计算开销大等挑战。
4 混合检索:结合关键词与语义的融合方法
4.1 基本概念与技术原理
混合检索是为克服稀疏检索和稠密检索各自局限性而提出的综合解决方案,同时执行两种检索方式并将结果融合,既保留稀疏检索的关键词精确匹配能力,又利用稠密检索的语义理解优势。
混合检索系统的典型架构包括多个检索组件、结果融合模块和重排序模块。首先分别使用稀疏检索和稠密检索获取候选结果,然后对两组结果进行融合排序,最后可能还包括基于更复杂模型的重排序步骤。
4.2 代表性融合算法
4.2.1 加权求和法(Weighted Sum)
将不同检索系统的得分进行归一化后加权融合:
Final_Score = α × Sparse_Score + β × Dense_Score
其中α和β为权重参数,通常通过网格搜索确定。
4.2.2 倒数排序融合(RRF)
无需分数归一化的稳健融合方法:
RRF_Score = Σ (1 / (k + rank_i))
其中k为常数(通常取60),rank_i是文档在第i个系统中的排名。
4.2.3 学习式融合(Learned Fusion)
使用机器学习模型(如LambdaMART)学习如何结合不同检索系统的得分,可加入更多特征如文档质量、新鲜度、权威性等。
4.2.4 级联融合(Cascade Fusion)
先使用高效检索方法(如BM25)获取候选集,再用精确但耗时的检索方法(如稠密检索)对候选集进行重排序。
4.3 应用案例与优势挑战
混合检索在RAG系统中应用广泛,如云鼎科技的"基于聚类的稀疏与密集检索增强生成系统"专利和openGauss的GaussMaster系统都采用了混合检索方案。
混合检索的优势在于兼顾效率与效果、缓解零样本问题、适应多样查询类型。挑战在于系统复杂度高、计算资源消耗大、参数调优困难。
5 多向量与学习式检索等前沿进展
5.1 多向量检索模型
多向量检索模型针对单向量表示信息压缩过度导致语义细节丢失的问题,使用多个向量表示文本的不同方面或片段。
5.1.1 ColBERT模型
ColBERT采用token级别的向量表示和迟交互(Late Interaction)机制。查询和文档分别编码为token向量,相似度计算为:s(q,d) = Σ max_{j} (sim(q_i, d_j))
。支持使用FAISS等向量库进行高效检索。
5.1.2 Poly-encoder模型
使用多个向量表示查询的不同方面,通过注意力机制与文档向量交互。计算查询m个向量与文档向量的注意力权重,加权求和后得到最终相似度。
5.1.3 BGE-M3模型
支持三模态融合的模型,可以同时处理稠密检索、稀疏检索和多向量交互。采用混合表示方式,既生成整体嵌入向量,也保留token级别的权重信息。
5.2 学习式稀疏检索
学习式稀疏检索(Learned Sparse Retrieval, LSR)将机器学习与传统稀疏检索结合,通过学习优化稀疏向量的权重和扩展,提升稀疏检索的表示能力。
5.2.1 DeepCT与uniCOIL
DeepCT使用BERT模型预测每个词项的重要性权重,将其视为词频的软性估计。uniCOIL在DeepCT基础上简化模型结构,使用轻量级MLP网络生成词项权重,保持高效性同时提升效果。
5.2.2 Splade模型
采用稀疏正则化技术和扩展策略,通过最大池化操作从BERT模型的输出中导出词项权重,同时支持查询和文档端的扩展(引入相关词项)。Splade-v2版本进一步提升了效果和效率。
表3:前沿检索方法对比
方法类型 | 代表算法 | 核心创新 | 优势 | 局限性 |
---|---|---|---|---|
多向量检索 | ColBERT, Poly-encoder | 细粒度token级交互 | 保留更多语义细节,精度高 | 计算存储成本高 |
学习式稀疏检索 | uniCOIL, Splade | 神经网络优化稀疏表示 | 保持高效性同时提升语义能力 | 需要训练数据,可解释性降低 |
跨模态检索 | CLIP, ALBEF | 统一多模态表示空间 | 支持图文等多模态检索 | 训练复杂度高 |
生成式检索 | DSI, SEAL | 直接生成文档标识符 | 端到端检索,无需索引 | 可扩展性有待验证 |
6 技术发展趋势与展望
信息检索技术正处于快速发展阶段,未来几年可能呈现以下发展趋势:
6.1 技术融合加深
稀疏检索与稠密检索的界限逐渐模糊,出现更多混合模型和学习式稀疏检索方法,结合两者优势。知识图谱增强检索将更广泛应用,利用结构化知识提升检索效果。
6.2 效率与效果平衡
随着模型压缩、近似计算和硬件加速技术的发展,稠密检索的效率将进一步提升,使其更适合大规模实时应用。向量数据库技术的成熟将优化稠密向量的存储和检索效率。
6.3 专业化与通用化结合
通用基础模型与领域适配 specialist 模型相结合,既有强大的通用语义理解能力,又具备领域专业知识。多模态检索技术发展,支持文本、图像、音频等多种信息类型的联合检索。
6.4 RAG系统优化
检索增强生成成为大模型时代的重要应用场景,检索模块的精度和效率直接影响生成质量。检索-生成联合优化、检索上下文压缩、多步检索等技术创新将不断提升RAG系统性能。
6.5 可解释性与可控性增强
针对稠密检索的黑盒特性,研究可解释性技术帮助理解检索决策过程。检索结果的可控性提升,允许用户更精确地调整检索偏好和优先级。
7 结论
信息检索技术经历了从传统关键词匹配到现代语义理解的演变过程,各种方法各有优势与适用场景。稀疏检索基于统计特征,高效可解释但语义理解能力有限;稠密检索基于深度学习,语义理解能力强但计算成本高;混合检索结合两者优势,在实际应用中表现优异;多向量检索和学习式稀疏检索等前沿技术则从不同角度推动检索性能提升。
未来,信息检索技术将朝着稀疏与稠密方法融合、效率与效果平衡、通用性与专业化结合的方向发展,为搜索引擎、问答系统和检索增强生成等应用提供更强大的技术支持。随着技术的不断成熟和创新,信息检索将在更多领域发挥重要作用,帮助人们更高效地获取和利用海量信息。
参考文献
- Robertson, S., & Zaragoza, H. (2009). The probabilistic relevance framework: BM25 and beyond. Foundations and Trends in Information Retrieval.
- Karpukhin, V., et al. (2020). Dense passage retrieval for open-domain question answering. EMNLP.
- Xiong, L., et al. (2020). Approximate nearest neighbor negative contrastive learning for dense text retrieval. ICLR.
- Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. EMNLP.
- Gao, T., et al. (2021). SimCSE: Simple contrastive learning of sentence embeddings. EMNLP.
- Khattab, O., & Zaharia, M. (2020). ColBERT: Efficient and effective passage search via contextualized late interaction over BERT. SIGIR.
- Formal, T., et al. (2021). SPLADE: Sparse lexical and expansion model for first stage ranking. SIGIR.