大规模语言模型(LLMs)已深度融入日常生活与职场实践,凭借其卓越的多功能性和智能水平,彻底重塑了人类与信息交互的模式。
尽管如此,这类模型仍存在明显局限。它们可能输出具有误导性的虚构内容("幻觉"),所依据的知识库存在滞后性,对专业领域知识的处理效率有限,且缺乏行业纵深洞察力,逻辑推理能力也尚未完善。
在实际应用场景中,数据必须保持动态更新以追踪最新进展,生成内容需具备完整的可追溯性,从而实现成本优化和数据隐私保护。
单纯依赖这类"黑盒"系统已无法满足需求,必须开发更精准的解决方案来应对复杂挑战。
检索增强生成技术(Retrieval-Augmented Generation,RAG)正是为填补这一空白而诞生,成为推动LLM时代发展的关键技术方向。

更多AI大模型学习视频及资源,都在智泊AI。
基础RAG架构的流程设计极为简洁,其核心特征在于数据流的单向性。这种架构的快速部署优势显著,但距离生产级应用仍存在差距。
为提升文档召回率与系统鲁棒性,主要优化方向可归纳为两类:
扩展召回通道:采用查询变换(子查询、RAG-Fusion)、混合检索等多路召回策略,以最大化信息覆盖范围;
强化反馈闭环:通过重排序(Rerank)、回溯提示(Back-Prompting)、Self-RAG等技术对初始结果进行迭代优化,从而提升输出准确性。
经此优化后,RAG架构中的数据流从单向传输转变为多维度并行交互模式。

一、 * 文本数据预处理*
无论RAG系统的架构设计如何演进,基于数据驱动的本质特性决定了高信噪比数据始终具有核心价值。在检索流程前对原始数据的优化策略可归纳为以下关键方法:
实体解析
通过消歧实现实体与术语的统一引用。例如将"LLM"、"大语言模型"和"大模型"映射为标准化术语体系。
文档划分
需科学规划文档主题分布策略:同类主题文档应采取集中存储还是分布式存放?当人类专家都无法快速定位相关文档时,检索系统必然面临相同困境。
数据增强
引入同义替换、语义重构及多语言翻译等手段,显著提升知识库的语义覆盖维度。
时效数据处理
针对动态更新领域(如时效性内容),需建立文档版本控制机制,自动标记或淘汰过时信息。
元数据扩展
补充内容摘要、更新时间戳、潜在用户查询等结构化信息,构建多维度的知识表征体系。

二、文本分块
在知识库检索场景中,数据规模通常远超LLM的输入容量限制,因此有效的分块策略需要在满足长度约束的前提下,兼顾块间差异性与块内一致性。
这是理论上的最优解,但实际文本往往呈现散文特征------段落间界限模糊、内容松散且篇幅冗长。
我们无法预先实现绝对完美的内容分块,毕竟后续有LLM这类智能模型来消化处理,我们提供的文本块本质上是"提示"而非完整答案。
尽管如此,仍需确保传递给LLM的是有价值的信息,而非干扰其注意力的噪声。以下是几种进阶分块技术方案:
句分割:借助NLTK或spaCy等库的句子切分能力,现代开发框架如langchain均已内置该功能
递归 * 分割*:采用分层分块策略,langchain框架会先按双换行符(\n\n)分割段落,若块体超出阈值则继续用单换行符(\n)细分,最终可细化到空格或句号级分割。
这种动态调整机制能适应不同密度文本------信息密集区需要更细粒度分割,而内容稀疏区可采用较大区块
语义 * 分割*:基于文本向量相似度计算实现语义单元划分
结构化处理:针对Markdown/LaTeX/JSON等特殊格式的专用分割器,能完整保留文档原始结构
分块尺寸的确定需综合考虑嵌入模型特性、文档类型及查询复杂度。处理学术论文等长文本时,较大区块有利于维持上下文连贯性;分析社交媒体短文本则适合较小区块。
当用户查询简洁具体时建议采用小区块,复杂查询则需要更大上下文支持。实践表明,经过反复测试验证,128token的区块尺寸在多数场景下表现最优,可作为基准参数进行后续调优。

三、嵌入
数据处理的最终环节涉及文本数据的类型转换,即通过嵌入(Embedding)模型将文本数据向量化(Vectorization),为后续的向量检索(Vector Retrieval)做准备。
在嵌入过程中,可通过以下方法优化性能:
动态嵌入:动态嵌入能有效解决一词多义问题。以"光盘"为例,在"我买了一张光盘"中,它指实体光盘;而在"光盘行动"中,则表示"吃完盘中食物"的行为。
静态嵌入的向量表示是固定的,而采用自注意力机制的模型(如BERT)能动态调整词义,使同一词汇在不同语境下获得差异化向量表示。
嵌入模型微调:多数嵌入模型基于通用语料训练,针对垂直领域时,可通过微调提升模型对专业词汇的理解能力,确保其平等对待领域术语和通用词汇,避免注意力分散。
混合嵌入:分别为用户查询和知识库文本选择不同的嵌入模型,以适配各自的语言特征和语义需求。
四、 * 查询优化*
在实际应用场景中,用户表达的多样性和模糊性常会导致检索系统的召回率与准确率下降。
为提升检索效果,需对查询语句进行优化处理,以标准化和扩充查询信息,从而帮助系统更精准地定位相关文档。
主要的查询优化技术包括:
查询重写
利用大语言模型(LLM)的提示功能,或部署经过微调的专用"问题重写器"(通常基于小型Transformer架构),对原始查询进行语义等价改写。
后退提示
引导LLM生成一个更高层级的抽象问题(称为"后退"问题)。该问题的抽象程度需根据任务需求动态调整,最终将后退问题与原始查询共同用于检索。
例如:面对"Estella Leopold在1954年8月至11月期间就读于哪所学校?"这类含精确时间限制的查询时,补充提问"Estella Leopold的教育背景如何?"能显著提升检索效果。
后续追问
通过LLM基于对话上下文生成独立问题,特别适用于两种场景:
后续问题依赖前序对话的上下文(如用户先询问"在意大利的活动推荐",再追问"当地特色美食"时,需保留位置上下文)
需整合最近k条对话记录。若新问题与历史对话无关,可能导致检索结果偏离主题。
假设文档生成(HyDE)
该方法要求LLM在无外部知识的情况下,先为查询生成假设性回答,再将此假设与原始查询联合用于向量检索。虽然假设内容可能包含不准确信息,但能揭示LLM认为相关的文档特征模式。
多维度查询
通过LLM从不同视角为原始问题衍生多个子问题,分别进行检索后,采用RRF(结果再融合)或重排序技术整合结果。例如:针对"红袜队与爱国者队谁是最新总冠军?"可拆分为:
红袜队上次夺冠时间
爱国者队上次夺冠时间
五、检索
检索(Retrieval)的核心目标始终是确保最相关文档的获取,或至少使最相关文档出现在返回结果中。为实现这一目标,可采用以下优化策略:
上下文精简:过大的文档块会引入冗余信息,不仅增加LLM调用成本,还可能降低响应质量。通过LLM辅助的上下文分析,可对文档内容进行智能压缩,或选择性提取关键信息进行返回。
相邻文本扩展:过小的文档块会割裂上下文关联。窗口搜索技术通过匹配目标文档块时,同步返回其相邻文本块作为补充上下文,从而增强LLM对完整语义链的理解。
层级文档检索:该方法采用文档分级策略------将原始文档划分为宏观主文档和微观子文档两级结构。系统优先匹配子文档,但最终返回其所属的完整主文档,兼顾检索精度与上下文完整性。
智能聚合检索:作为父文档搜索的升级方案,该方法构建三层树状文档结构(顶层1024字符/中间层512字符/底层128字符)。
检索时仅匹配底层节点,当某父节点下多数子节点匹配时,则返回该父节点内容,实现动态上下文扩展。
多模态检索融合:RAG系统作为开放域问答架构,需通过混合检索技术提升事实覆盖率。
通过向量检索与关键词检索的协同应用,可充分发挥不同检索技术的优势。例如,组合语义相似度计算与精确关键词匹配,能显著提升检索模块的全面性。
智能索引路由:针对多类型查询需求(如摘要生成、精确问答、时效性查询等),系统需建立专业索引库并通过路由机制自动分配查询请求。
例如,影视推荐类查询会被优先导向娱乐内容索引,同时触发热点话题索引的协同检索。
自主决策代理:通过Agent智能体动态选择检索策略,支持单方法或多方法组合调用(串行或并行)。
例如,查询"2024年AI技术趋势"时,Agent会自动串联学术文献索引与行业报告索引,实现多维信息整合。

六、 * 检索后处理*
"检索后处理"这一范畴本身具有相当的包容性,其核心目标是对初步获取的检索结果实施优化处理,从而为大语言模型(LLM)的后续生成提供更优质的输入。
其中最具代表性的技术当属重排序(Rerank)。
虽然向量检索通过语义相似度计算实现了初步筛选,但语义高度匹配的文档未必与查询需求完全契合。
重排序机制通过多维度相关性分析(包括查询意图解析、词汇多义性消歧、用户行为模式挖掘及上下文关联分析等),对初始结果列表进行智能优化。
当前实现方案主要分为两类:一是通过LLM指令调优实现动态重排.
二是采用专业重排序模型(如商业化的Cohere,以及开源的BAAI/bge-reranker和IBM的Dense Passage Re-Ranker等)
这类模型通过综合评估更丰富的特征维度,确保最终呈现的文档排序与用户真实需求高度一致。
七、生成
在生成(Generation)阶段的优化需聚焦用户体验提升,具体可从以下维度实施:
多轮对话机制
采用带聊天历史的RAG技术(以AI搜索领域标杆产品Perplexity为例),通过连续对话交互帮助用户深度解析问题。
这种设计允许用户在多轮问答中逐步明确需求,最终获得精准解答。
智能追问策略
在prompt中植入动态追问逻辑:"当背景知识无法直接回答问题时,需基于检索内容发起追问,且单次追问不超过3个问题"。
该机制虽依赖大模型基础能力,却能显著提升交互体验------用户通过引导式对话不断澄清需求,最终匹配最优答案。
prompt精细化设计
RAG系统的prompt需严格声明回答边界,例如:"作为智能客服,你需基于给定上下文提供准确信息,避免引入外部知识。回答应简洁友好,优先解决用户核心问题"。
同时可根据场景需求灵活调整:
必要时允许模型融入适度主观分析
采用Few-shot学习范式指导LLM高效利用检索知识
反馈驱动迭代
建立用户反馈闭环系统,通过真实交互数据持续优化知识库,并对信息可信度进行动态标注。这种实时更新机制能有效提升系统响应质量。
八、最后
上述方法均为基础RAG在各环节的优化策略,实际应用中需注意:
-
不同方法的效果存在差异;
-
需根据具体问题选择针对性方案;
-
通过适配应用场景的优化组合,才能实现RAG效用的最大化。
更多AI大模型学习视频及资源,都在智泊AI。