【LLM大模型】最优化大模型效果之 RAG（二）：索引的优化策略

今天我们讨论的话题是：如何通过优化 RAG 中的索引环节来最优化大模型的效果。

在正式开始前，让我们先回忆一下最基本的 RAG 系统：

当用户进行提问时，RAG 系统首先会根据问题从预先构建好的数据库检索相关的文档，并返回给大模型进行生成。在这个过程中，我们一共做了三件事儿，分别是索引、检索和生成。为了获得更好的效果，需要对这三个环节进行针对性的优化，从而提高 RAG 系统的性能。

Naive RAG 的过程

接下来，我们会重点探讨索引环节的问题和优化方法。

索引的过程就是将知识保存起来的过程。通常来说，知识存储的过程需要经过解析、切片和构建索引等三个过程。

一、解析

解析的目的是提取原始资料中的有效信息，这些资料可能是文本、PDF文件、表格、图片甚至是视频等非结构化的数据。PDF 可以解析成文本，表格数据可以转换成大模型易于处理的 HTML 格式，但图片或者视频如何处理呢？

问题 1：如何处理原始资料中的非结构化数据，例如图片、视频？

使用多模态的嵌入模型（例如 OpenAI 的 Clip）将多模态的数据映射到嵌入空间。

使用多模态模型为图象或视频（截取关键帧）生成文本摘要，然后合并到原位置并将原来的内容替换，替换下来的图片或视频将单独进行存储，然后在生成结果时根据使用的大语言模型是否为多模态决定是否作为上下文输入。

问题 2：文本中包含许多无用、重复和陈旧过时的信息，也就是噪声问题。

在原始资料中经常显式地存在着许多无用信息，例如 PDF 文件的页眉、页脚和网页上的小广告。我们可以使用一些启发式的规则来去除这些无用信息。例如删除不必要的 HTML 标签、过滤奇怪的字符、删除页眉、页脚和页码等。也可以使用一些 NLP 相关的技术用来对数据进行清洗。

为同一领域内的大量文档建立索引时还需要关注文档中的重复问题，我们可以通过文档间的相似性度量来清除重复冗余的内容。

二、切片

切片操作会将文档切分为一个个小的文档块，那么多大的块比较合适呢？

问题 3：找到合适的切块大小，也就是块优化问题（Chunk Optimization）

文本块的大小会从两个方面影响 RAG 的性能：

其一，块的大小直接影响其承载的信息量。较大的文档块可以更多的保留上下文结构，但也会包含更多的无用信息，而较小的块包含信息和上下文更少，且更可能导致内容被截断。

其二 ，无关内容会降低检索过程的召回率。由于在检索过程中会使用向量相似度来匹配最相关的内容，如果块中包含的无关内容过多，检索就会被无关信息阻碍导致无法被召回。因此从检索的角度来说，较小的文档因为其包含的噪音越少，因此检索效率比较高。

综合生成和检索的需要来看，最理想的文档切片应该是大小适中、信息集中且语义完整的片段，确保既能提供足够的上下文又不会过于冗长。但是实际情况则复杂的多，内容相关的完整逻辑块有些很大，有些则很小。还有一些特殊的逻辑块不可被截断，例如代码被截断后就失去了意义。

因此我们很难找到一个统一的分块大小，必须根据实际情况来做优化。

Small2Big 是一种非常有用的策略，核心思想在于将用于检索和生成的文本块进行解耦，使用较小的文本块提高检索的准确性，使用较大的文本块进行生成以便于提供更多上下文信息：

Sentence Window Retrieval

Sentence Window Retrieval 方法会将文档切分为较小的块，在进行检索时采用小文本块计算相似度。一旦文档块被检索器命中，则该文档的上下文也会被返回，为生成阶段提供更完成的上下文。

Parent Document Retrieval

Parent Document Retrieval 方法要求我们进行分层索引，即将文档在不同的层面上做切片，父文档块是较大的文本块，拥有与他相关的子文档块的全部信息。在检索时，使用子文档，一旦检索命中则通过父 ID 查找并返回父文档块进行生成。

此外，我们也可以根据文本的内在逻辑关系进行切分。

一段文本中可能包含关于多个主题的陈述，虽然这些陈述可能都与一件事情有关，但也可能在一些问题中成为无用信息。例如在介绍比萨斜塔的文本中，可能提到了比萨斜塔的倾斜程度、建造时间和伽利略的自由落体试验。如果我们向 RAG 询问比萨斜塔的倾斜程度，那么建造时间和自由落体试验就是段落中的无用信息。

因此我们可以将这段文本按主题切分为三块，来表述三个不同的事实：萨斜塔的倾斜程度、萨斜塔的建造时间和伽利略的自由落体试验。这样做的好处在于可以显著减少文块中的无用信息，有效提升检索的准确性。这种方法叫做 Dense X。

Dense X Retrieval

Dense X 的基本思想是：将数据分解为小的、独特的事实，这些事实是自包含的（指其包含了全部的信息，无需依赖其他片段进行解释）、上下文化的片段，我们称之为"命题"。命题中包含了更精细、完整的内容，拥有更高的信息密度。这也是其名字的来由------相比于直接对文档切块，命题中的信息更加稠密（dense）。

经过命题化的文档带来了显著的检索效果提升，即使是长尾实体问题，命题也能帮助检索到更精确、更相关的答案，从而有助于提升 RAG 系统的泛化能力。

这里我直接引用原始论文中的评估结果：

Document retrieval vs Entity popularity

Downstream QA performance using unsupervised and supervised retrievers

但是根据没有免费午餐定理，将文档转化为命题的工作量非常大，因此在原始的论文中，研究者微调了一个大模型，来完成这项工作，有兴趣的同学可以参考原论文，这里不过多展开。

问题 5：切片破坏了文档中潜在的关联关系和层次结构

文章中存在着行文的脉络，知识与知识间也存在着关联关系和层次关。例如在一篇"总-分-总"结构的文章中，关于某个知识的陈述可能在第一段和最后一段，中间的段落中展开了对这个知识不同方向的描述。

切片会破坏文章中的上下文关系，而 RAG 会平等地对待每一个文本块，无法捕获文档集合中的潜在层次关系和跨块传播的关联关系，限制了最终生成的效果。为了改善这一情况，我们可以引入 RAPTOR 方法。

RAPTOR

RAPTOR 是一种递归的文档处理方法，其核心思想可以总结为"聚类概括、层层总结"：

在 RAPTOR 的每一层递归中，首先对文本块进行聚类，聚类会将内容相近的文本块聚合在一起，然后使用大语言模型对其进行概括和摘要。而在新一层的递归中，又对摘要进行聚类和概括。经过层层递归，最终产生一个分层的树状结构。

其中，原始的文本块和聚类后生成的总结都将被索引至数据库内。

RAPTOR 过程

这种树状结构可以捕获文档的不同部分之间的相关关系和层次关系。在文档树中，最末端的叶片是原始的文档块，更靠近树根的枝干，则代表了跨相似文本块的更高级别的信息整合，这对于复杂的主题查询和问答任务中的多步骤推理特别有用。

三、构建索引

索引的目的是提高信息检索的效率和质量，从而支持更好的检索效果并生成更准确和相关的回答。

索引过程会将文档的切片通过各种方式保存在数据库中，例如在 Naive RAG 中，文档片段经过 embedding 模型生成嵌入向量，并存储在向量数据库中（如 FAISS 或 Chroma）。这样的索引方式虽然有效，但还存在很多的问题，例如无法限制在特定的范围内进行检索，检索准确度也需要提高。

问题 6：如何通过时间等额外条件对向量存储的内容进行过滤

有时我们希望基于最新版本的研究报告来进行内容生成，但是数据库中可能索引了历年的研报数据。仅仅依靠向量相似性搜索，我们无法有效区分最新版本和历史版本。因此我们需要找到一种更有效的过滤手段，来根据一些结构化的属性进行过滤，以便于从更小的范围匹配相关内容，得到更准确的生成结果。

方法：为文本块添加元数据

元数据是一种关于数据的数据，用于根据各种属性（如日期、主题、来源或任何其他您认为相关的信息）对信息进行分类、排序和过滤。我们为文本块添加元数据后，就可以根据元数据限制搜索范围，确保生成的答案来自特定的数据片段。

问题 7：不合适 embedding 制约检索的召回率

在向量存储和检索过程中，embedding 模型起着至关重要的作用。Embedding 模型将文本转化为嵌入向量，这些嵌入向量表示文档块在语义空间中的位置。语义关系接近的文档块在语义空间中的距离也相对较近，因此在检索时可以根据嵌入向量的相似度找到最相关的内容。

然而，在某些场景下，embedding 模型可能无法很好地区分文本块之间的相关关系，这通常与 embedding 模型的训练数据有关。模型的能力来自对数据的学习，当数据分布相近时效果很好，但如果测试数据与训练数据差异过大，embedding 的效果就会显著下降，导致检索阶段的召回率不高。

因此，在对文本块进行索引前需要评估 embedding 模型的效果，如果效果不佳就需要针对具体的业务场景进行微调，通常经过微调后的 Embedding 模型在召回上会有大幅地提升，例如在智谱 AI 的分享中提到的数据：

经微调后 top 5 召回达到 100%，且不同模型差异不大

问题 8：仅使用向量存储存在局限性

除了向量存储外，RAG 还可以集成其他的存储方式，例如关系型数据库和图数据库。通过这种集成，RAG 系统可以充分利用不同数据库类型的特性和优势。例如，关系型数据库适合进行复杂的多表关联查询，而图数据库适合进行遍历和路径查找。这种多样性使得RAG能够根据具体的查询需求选择最合适的数据库，从而提高查询效率和准确性。

如何系统的去学习AI大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包 》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享**（安全链接，放心点击）**👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的所有 ⚡️ 大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

全套《LLM大模型入门+进阶学习资源包 》↓↓↓ 获取~