持续改进 RAG 应用效果：从“能用”到“好用”的系统化方法

合理的 chunk 切分策略，是 RAG（Retrieval-Augmented Generation）系统性能优化的关键因素之一。通过优化切分方式，可以在保证语义完整性的同时，提高向量检索的相关性，减少无关上下文干扰，从而加速信息检索、提升生成质量与整体推理效率。常见的 chunk 切分方法主要包括以下几类：

1. 基于领域知识的切分

针对具有明确结构的专业文档（如法律、金融、技术规范等），可利用领域特有的结构信息进行切分。例如，在法律文档中，以章节编号、条款、款项作为天然的切分边界，能够最大程度保留语义完整性和逻辑层次。

2. 基于固定长度的切分

按照固定的词数或 token 数进行切分，例如每 128 或 512 个词作为一个 chunk。这种方式实现简单、性能稳定，适合快速构建系统，但缺点是无法感知语义边界，可能导致上下文被强行截断，影响检索和生成效果。

3. 上下文感知与语义驱动切分

在切分过程中引入上下文感知机制，尽量避免语义断裂。例如，在 chunk 边界处保留前后相邻的句子，或确保关键句对不被拆散。进一步地，可以引入自然语言处理技术，对文本进行语义单元识别，如基于句子相似度计算、主题模型（如 LDA）、或基于 BERT 等模型的向量聚类，以保证每个 chunk 内部语义高度一致，减少跨 chunk 的信息依赖。

在实践中，通义实验室提供了一种中文文本切割模型，可直接对长文本进行语义感知切分，输出结构合理的文本块，适用于构建高质量知识检索系统（详见：中文文本分割模型）。

（三）句子滑动窗口检索

标准 RAG 检索往往只返回与查询最相关的 chunk。但很多知识并非孤立存在，而是跨句或跨段落分布。句子滑动窗口检索策略在命中 chunk 的基础上，根据预设窗口（window_size）引入命中 chunk 前后相邻句子，从而补全语义线索。

window_size=1：默认多数技术文档效果较好；
window_size=2：适用于原理性教程或多句逻辑链文档；
window_size ≥3：虽然涵盖更多上下文，但也可能引入噪声。

滑动窗口机制实质上是对标准检索的补充，使生成阶段能获得更完整的语义上下文。

（四）自动合并检索

自动合并检索通过对已切分的 chunk 构造层级结构（如父子关系、语义树等），在检索阶段不仅返回最相关子块，还动态向上合并语义，从而避免碎片化信息。相比简单的滑动窗口，这种策略能够在更大粒度上保留语义一致性。

例如，可以通过先按章节切分"父块"，再在父块内部进行精细的"子块"切分，检索时先返回子块，再按父块聚合并扩展相邻上下文，这在技术文档等结构丰富的场景中效果显著。CSDN 博客

（五）Embedding 与 ReRank 的联合优化

检索质量的关键还在于如何构建向量与排序策略，这直接影响相关性判断与最终召回准确率。

1. 选择合适的 Embedding 模型

用于生成向量的 Embedding 模型种类繁多，不同模型对中文语料的语义表达能力存在明显差异。针对中文场景，优先选用对中文语料表现更佳的模型，可显著提升召回质量。Embedding 模型通常决定了语义空间的表达能力，是影响检索质量的基础因素。

2. 引入 ReRank 模型提升排序精度

初次召回往往返回 TopK 候选（如 Top50），但其中并不全是最相关内容。通过引入 ReRank 模型（如交叉编码 Cross‑Encoder）对初筛候选重新排序，可以将真正语义相关的 chunk 更靠前，从而提升最终生成内容的质量和可用性。System Overflow