文档切分粒度不好把控

痛点分析

痛点1：文档切分粒度不好把控

在文档对话系统中，**文档切分（文本分割）**的粒度决定了系统处理和理解文档内容的细致程度。如果切分粒度过大或过小，都可能带来以下问题：

噪声过多：
- 原因：切分粒度过大时，每个文本块包含的信息量过多，可能包含与用户问题无关的内容。
- 影响：LLM在生成回答时可能会受到无关信息的干扰，导致回答不够精准或产生"幻觉"（即生成与事实不符的内容）。
语义信息丢失：
- 原因：切分粒度过小，文本块过于细碎，可能导致语义的连贯性和上下文信息的丢失。
- 影响：LLM可能无法充分理解文本块的完整语义，导致回答不全面或误解用户意图。

具体问题描述

当前的文档切分方法多基于格式化标记（如HTML标签或PDF中的换行符）进行简单分割，这种方法无法准确捕捉文本的语义结构，导致：

回答不完整：模型可能仅回答文档中的部分内容，而忽略了其他相关信息。
召回结果残缺：向量相似度检索时，相关文本片段可能不完整，影响回答的准确性。

举例说明：

假设有一个包含多个段落的文档，用户提问关于某一具体主题。如果文档切分过大，一个文本块可能包含多个主题，LLM在处理时可能无法聚焦于用户关心的具体部分，导致回答泛泛而谈或遗漏关键信息。

解决方案

为了解决上述痛点，提出了基于语义级别的文档切分方法，并优化了检索和推理的流程。以下是具体的解决方案及其原理：

1. 思想与原则

文档对话系统架构分为两部分：

检索（推荐系统）：负责从大量文档中快速、准确地找到与用户问题相关的内容。
推理（由LLM完成）：基于检索到的内容，生成用户所需的回答。

重心在检索部分，需满足以下三点：

尽可能提高召回率：确保相关的信息被检索出来。
尽可能减少无关信息：避免噪声干扰，提高回答的准确性。
速度快：保证系统响应的实时性。

2. 语义级别的文档切分

目标：实现基于语义的文本切分，而非简单的基于格式化标记（如换行符）的切分。

方法：

语义理解：利用LLM或其他语义理解模型，识别文本中的主题、段落和关键概念。
动态切分：根据文本的语义结构，将文档划分为具有完整语义单元的文本块，确保每个块内部的语义连贯，避免跨主题混杂。

优势：

减少噪声：每个文本块更具针对性，包含的无关信息较少。
保留语义：确保每个文本块的语义完整，LLM能够更准确地理解和利用上下文信息。

3. 优化的检索与推理流程

步骤分解：

构建二级索引：
- 第一级索引：[关键信息]：提取文本中的关键信息（如主题、关键词、摘要等），并对其进行向量化处理。
- 第二级索引：[原始文本]：保留原始的、完整的文本内容，与关键信息一一映射。
向量化与相似度计算：
- 检索部分：仅对关键信息进行向量化，并在向量空间中进行相似度计算，以快速找到与用户问题最相关的文本块。
- 映射回原始文本：将检索到的关键信息映射回其对应的原始文本，作为LLM生成回答的上下文。
高效检索机制：
- 使用高效的向量数据库：如FAISS、Pinecone等，支持快速的向量相似度搜索。
- 优化索引结构：确保索引的高效性和可扩展性，支持大规模文档的实时检索。
推理部分：
- 构建Prompt：将检索到的原始文本片段与用户的问题结合，形成LLM的输入提示（prompt）。
- 生成回答：LLM基于提供的上下文和问题，生成简明、准确的回答。

4. 示例与标答

问题1：如何让LLM简要、准确回答细粒度知识？

解决方案：

语义级别的分割：通过LLM识别文本中的细粒度语义单元，将文档按主题或概念划分为独立的文本块，确保每个块的语义完整性。
二级索引结构：
- 关键信息索引：提取每个文本块的关键信息，如摘要、关键词或主题句，并对其进行向量化。
- 原始文本映射：保持关键信息与原始文本的一一对应关系。
高效检索：
- 向量相似度计算：仅在关键信息向量中进行相似度匹配，快速检索出最相关的文本块。
- 减少噪声：通过语义切分和关键信息索引，确保检索结果的相关性和准确性。
结合推理：
- 构建精确的Prompt：将检索到的相关原始文本与用户的问题结合，提供给LLM进行推理和回答。
- 生成简明回答：LLM基于高质量的上下文，生成简洁、准确的回答，避免噪声干扰。

标答示例：

用户问题：如何让LLM简要、准确回答细粒度知识？

系统回答：要实现LLM对细粒度知识的简要且准确的回答，可以采用语义级别的文档切分方法。具体步骤包括：

语义分割：利用LLM识别文本中的主题或关键概念，将文档划分为语义连贯的文本块。
二级索引：建立关键信息索引，对每个文本块的摘要或关键词进行向量化，同时保留与之对应的原始文本。
高效检索：在关键信息向量库中进行相似度搜索，快速召回与用户问题相关的文本块。
精确推理：将检索到的相关原始文本与用户问题结合，输入给LLM，生成简明、准确的回答。

这种方法确保了检索到的上下文信息高度相关，减少了无关噪声的干扰，从而提升了LLM回答细粒度知识的能力。

总结与技术要点

通过上述解决方案，可以有效应对文档切分粒度不当带来的问题，具体体现在以下几个方面：

语义级别的文本切分：
- 利用LLM或其他语义理解模型，确保每个文本块具有完整的语义单元，避免信息碎片化或混杂。
二级索引结构：
- 关键信息索引：提高检索的效率和相关性，减少无关信息的干扰。
- 原始文本映射：保证LLM获取到完整、准确的上下文信息，支持高质量的回答生成。
高效的向量数据库：
- 选择性能优越的向量数据库，如FAISS、Pinecone等，确保大规模文档的快速检索。
- 优化向量索引结构，提高相似度计算的速度和准确性。
优化的Prompt设计：
- 合理构建输入提示，将相关的上下文信息与用户问题有效结合，充分发挥LLM的推理能力。
系统整体架构的优化：
- 将检索与推理分离，明确各自的职责，提高系统的可维护性和扩展性。
- 注重检索部分的优化，确保高召回率和低噪声，为LLM提供高质量的上下文支持。

系统架构概述

主要架构图

系统架构主要包括以下几个关键部分：

文章的切分及关键信息抽取
向量化与索引构建
检索与匹配
生成回答

其中，关键信息不仅包括句子和段落，还涵盖整个文章的核心内容。为了提高效率，可以选择性地对不同粒度的信息进行处理。

1. 文章的切分及关键信息抽取

关键信息

关键信息是指每个语义段落或子标题中提取出的核心内容，可能包括主题、关键词、摘要等。这些信息用于后续的向量化和检索过程。

语义切分方法

为了实现高效且准确的文档切分，避免简单依赖格式化标记（如HTML标签或PDF中的换行符），需要采用语义级别的切分方法。以下是两种主要的方法：

方法1：利用篇章分析（Discourse Parsing）工具

原理：篇章分析工具能够识别文本中段落之间的主要关系，例如主从关系、因果关系等。
操作：将具有从属关系的段落合并为一个整体，确保每个切分后的段落在语义上是连贯且统一的。
优势：保证每一段落在讨论同一主题，减少跨主题混杂，提升后续处理的准确性。

示例：假设一篇文章中有多个段落讨论不同的主题，通过篇章分析工具，可以将相关主题的段落合并，形成统一的语义块。

方法2：基于BERT等模型的语义分割

原理：利用预训练语言模型（如BERT）中的下一句预测（Next Sentence Prediction, NSP）能力，判断相邻段落或句子之间的语义衔接关系。
操作：
1. 计算相邻段落或句子的相似度分数。
2. 设置一个相似度阈值t，如果相似度大于t，则将其合并，否则断开。
3. 为了提高效率，可以采用二分法并行判断。
优势：无需依赖复杂的篇章分析工具，利用现有的语言模型即可实现有效的语义分割。

示例：使用BERT-base-Chinese模型，对每对相邻段落计算相似度，如果相似度高于阈值，则合并为一个语义段落，否则作为独立段落处理。

语义段的切分及关键信息抽取

在完成语义切分后，对每个语义段落进行关键信息的提取。这一步骤确保了后续向量化和检索的高效性和准确性。

关键信息抽取方法

方法1：成分句法分析（Constituency Parsing）与命名实体识别（NER）
- 成分句法分析：提取句子的核心部分，如名词短语、动词短语。
- 命名实体识别：识别并提取重要实体，如人名、地名、组织名等。
示例：
- 原始文本：MM团队的成员都是精英，核心成员是前谷歌高级产品经理张三，前Meta首席技术官李四......
- 关键信息提取结果：MM团队，核心成员，张三，李四
方法2：语义角色标注（Semantic Role Labeling）
- 原理：分析句子的谓词论元结构，提取"谁对谁做了什么"的信息。
- 操作：识别句子中的施事、受事、动作等语义角色，作为关键信息。
示例：
- 原始文本：张三领导了这个项目，李四负责技术支持。
- 关键信息提取结果：张三（施事），领导（动作），项目（受事）；李四（施事），负责（动作），技术支持（受事）
方法3：关键词提取（Keyphrase Extraction）
- 工具：
  - HanLP：适用于中文，效果较好，但需要付费，免费版调用次数有限。
  - KeyBERT：适用于英文，中文效果较差。
优势：现有成熟工具可直接应用，简化关键信息提取过程。
方法4：垂直领域定制方法
- 原理：针对特定领域训练专用的关键词生成模型，如ChatLaw中的KeyLLM。
- 优势：在特定领域内，定制模型能显著提升关键词提取的准确性，克服通用模型在垂直领域的不足。

2. 向量化与索引构建

在完成语义段的切分和关键信息的提取后，需要将这些信息进行向量化处理，以便在向量空间中进行高效的相似度计算和检索。

二级索引结构

第一级索引：关键信息
- 内容：每个语义段落的关键信息集合，如关键词、摘要、主题句等。
- 操作：对关键信息进行向量化处理，存储在向量数据库中，用于后续的相似度计算和检索。
第二级索引：原始文本
- 内容：每个语义段落的完整文本内容。
- 操作：与关键信息一一映射，确保在检索到关键信息后，能够快速获取对应的原始文本作为上下文提供给LLM。

向量化与相似度计算

向量化工具：选择适合的预训练语言模型（如BERT、GPT等）将关键信息和用户问题转换为高维向量。
相似度计算：常用的相似度度量方法包括余弦相似度、欧氏距离等，通过计算用户问题向量与关键信息向量之间的相似度，找到最相关的文本块。

向量数据库选择

常见工具：FAISS、Pinecone等高效的向量数据库，支持大规模向量数据的快速检索和相似度搜索。
优化策略：根据数据规模和实时性需求，优化向量索引结构，提高检索速度和准确性。

3. 检索与匹配

检索过程

用户提问向量化：将用户的自然语言问题转换为向量表示。
相似度匹配：在关键信息的向量库中，计算与用户问题向量的相似度，召回最相关的前k个关键信息。
映射原始文本：将召回的关键信息映射回对应的原始文本，作为LLM生成回答的上下文。

优化目标

提高召回率：确保相关信息被有效检索出来。
减少无关信息：通过精确的语义切分和关键信息抽取，降低噪声干扰。
保证速度：利用高效的向量数据库和优化的索引结构，确保实时响应。

4. 生成回答

Prompt 构建

将检索到的相关原始文本片段与用户的问题结合，形成输入给LLM的提示（prompt）。这种方法确保LLM在生成回答时，有具体的参考内容，从而提高回答的准确性和相关性。

回答生成

LLM基于提供的上下文和问题，生成自然语言形式的回答。由于上下文信息的精准提供，LLM能够更有效地整合信息，避免"幻觉"问题，生成简明、准确的回答。

常见问题解析

问题：句子、语义段之间的召回是否会有包含关系，是否会造成冗余？

回答：

确实，在语义段之间进行召回时，可能会出现一定程度的冗余，即多个语义段包含部分重叠的信息。然而，经过实验发现，这种冗余并不会显著影响回答的质量，反而有助于LLM更全面地理解用户的问题，提供更准确的回答。

优化建议：

冗余过滤：在召回结果中，可以引入冗余过滤机制，去除高度相似的语义段，保留多样化的信息源。
加权机制：对不同的召回结果赋予不同的权重，根据其与用户问题的相关性进行排序和筛选。
动态调整k值：根据具体应用场景动态调整召回的top k值，平衡召回数量和冗余程度。

然而，现有的冗余程度在实践中并未对回答质量产生负面影响，因此可以视具体需求决定是否进行进一步优化。

总结与技术要点

1. 语义级别的文本切分

重要性：确保每个文本块在语义上是完整且连贯的，避免信息碎片化或混杂。
实现方法：利用篇章分析工具或预训练语言模型进行动态切分。

2. 二级索引结构

关键信息索引：提高检索的效率和相关性，减少无关信息干扰。
原始文本映射：保证LLM获取到完整、准确的上下文信息，支持高质量回答生成。

3. 高效的向量数据库

选择工具：FAISS、Pinecone等，确保大规模文档的快速检索。
优化策略：根据数据规模和实时性需求，优化向量索引结构。

4. 优化的Prompt设计

策略：合理构建输入提示，将相关上下文信息与用户问题有效结合，充分发挥LLM的推理能力。
目标：生成简洁、准确的回答，避免噪声干扰。

5. 系统整体架构优化

检索与推理分离：明确各自职责，提高系统的可维护性和扩展性。
检索部分优化：确保高召回率和低噪声，为LLM提供高质量的上下文支持。

问题背景：

痛点：文档切分粒度难以把控，过大导致噪声增多，过小导致语义信息丢失。粗略的文档切分使得模型在召回片段时可能只提供不完整的答案。
关键问题：如何让LLM能够简要、准确地回答细粒度知识？

解决方案：

整体思路：基于LLM的文档对话架构分为两部分：
- 检索：通过向量相似度计算，提高召回的准确性。
- 推理：交给LLM来整合召回结果。
检索部分的核心原则是：
- 提高召回率：确保尽可能多的相关信息被检索到。
- 减少无关信息：降低噪声，增强模型的准确性。
- 加快速度：保持高效的处理流程。
二级索引架构：
- 第一级索引：关键信息，提供简洁的语义概述，用于检索。
- 第二级索引：原始文本，结合召回的关键信息获取完整答案。
语义切分方法：
- 方法1：篇章分析工具：使用discourse parsing工具，根据段落之间的从属关系，将相关段落合并，以确保每段落包含一致的语义。
- 方法2：基于BERT的切分：利用BERT模型的NSP任务，判断相邻句子或段落是否具有语义衔接关系，基于相似度阈值t，决定是否合并段落。
关键信息提取：
- 方法1：成分句法分析和命名实体识别（NER）：通过句法分析提取核心名词短语和动词短语，结合NER提取重要实体。
- 方法2：语义角色标注（SRL）：通过谓词论元结构，提取句子的主要信息，如"谁对谁做了什么"。
- 方法3：关键词提取工具：使用HanLP或KeyBERT进行关键词抽取。
- 方法4：垂直领域自定义方法：例如训练KeyLLM模型，专注于生成领域相关关键词。

常见问题：

冗余问题：多个语义段和句子召回时可能出现重复，但实际测试显示这对准确度影响不大，尤其在跨段落知识的回答上表现更好。

总结来说，通过语义切分和关键信息抽取，文档检索与对话系统可以实现更精准、简洁的知识召回，有效减少噪声并提升回答的质量。