【AI学习】检索增强生成（Retrieval Augmented Generation，RAG）

1，介绍

出自论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》，RAG是权宜之计，通过RAG将问题简单化、精简化、剔除噪声，让LLM更容易理解、生成内容。RAG：检索增强技术=检索+生成（重排）。

通过集成外部知识从而减少特定领域LLM幻觉问题，相比微调和强化学习陈本极低。

RAG系统可以分为检索和生成两个阶段：

通过检索找到与用户查询密切相关的知识库（KB）内容：

将文档划分为较小的、语义上有意义的片段；文档可以支持多模态（Word、TXT、CSV、Excel、PDF、PPT、Images、Audio/Video等）转换为文本，最终还是对文本进行处理。

太大数据检索准确率下降，太小丢失上下文信息，找到平衡点。分块方式：

除此之外分块之前还会做一些数据清洗已提高RAG的准确率：冗余消除、专有名词、数据增强（同义词近义词翻译库）、用户反馈、过期文档。

嵌入模型将每个信息块压缩为向量表示；常用的模型：

将嵌入向量存入向量库中（键值对），从而实现高效且可扩展的搜索功能。

查询路由（Query Routing）：根据查询的内容和意图将查询定向到特定流水线的技术，使 RAG 系统能够有效地处理各种场景。

用户查询也通过相同的向量化过程转换为向量表示；同时去向量库中检索，这样用户查询就可以在相同的维度空间中进行比较。

计算用户查询嵌入与之前存入的文本块嵌入之间的相似性分数，返回相似度最高的几个信息。

生成过程将检索到的信息与用户查询结合，形成增强的查询，通过prompt（提示模板）组合后传递给LLM查询、润色，以生成丰富上下文的响应。

Reranker 是信息检索系统中的核心组件，用于对初步筛选的候选结果进行重新排序，以提升最终输出的相关性和用户体验。

特征融合
结合文本 / 内容特征（如关键词匹配）、用户行为特征（如点击率）、上下文特征（如时间、地理位置）等多维度数据。
利用嵌入向量（如用户和物品的 Embedding）计算语义相似度。
排序函数
通过机器学习模型（如逻辑回归、树模型、深度学习）学习样本对（Query - 文档对）的排序规则。
常用损失函数：Pairwise Loss（如 RankNet）、Listwise Loss（如 LambdaMART）。
反馈机制
结合离线评估（NDCG、MAP）和在线反馈（A/B 测试）优化模型。

模型类型	代表算法 / 模型	特点
传统模型	LambdaMART、RankNet	基于梯度提升树或神经网络，依赖人工特征工程。
深度学习模型	BERT-Pairwise、ESIM	利用预训练语言模型捕捉复杂语义关系，支持端到端训练。
交互式模型	DSSM、双塔模型	通过用户与物品的交互行为学习联合嵌入空间，适用于推荐系统。
多模态模型	MM-Ranker（文本 + 图像）	融合多模态特征（如商品图片与描述），提升跨模态场景排序效果。