一文读懂 LangChain 文档拆分：从字符切割到语义分块

概述

在基于 LangChain 搭建 RAG（Retrieval-Augmented Generation）系统时，"文档拆分"是不可忽视的关键环节。拆分策略直接影响后续嵌入向量的表达能力、向量检索的准确率和最终的问答效果。那么，为什么要拆分文档？应该选择什么方式拆分？又有哪些值得推荐的拆分方法？本文将逐一解析。

一、为什么要拆分文档？

在构建基于 LangChain 的检索增强生成（RAG）系统时，文档拆分是数据预处理阶段的核心步骤之一。无论是 PDF、网页、Word 文档还是纯文本，直接整体处理几乎不可行。拆分文档不仅是应对技术限制的权宜之计，更是提升系统表现的重要优化手段。主要原因包括以下几个方面：

1.1 克服模型输入长度限制

当前无论是使用嵌入模型还是语言模型（如 OpenAI 的 GPT 系列、Qwen、BGE 等），都存在最大输入限制。比如常见的嵌入模型支持最多 512 或 8192 个 tokens，超过限制的文本将无法完整处理。通过合理拆分文档，我们可以将原本超长的内容切割为多个小块，使其适配模型输入，从而顺利完成嵌入、问答或生成任务。

1.2 处理不统一的文档长度

在实际项目中，我们面对的文档往往来自不同来源，长度差异巨大。从几句话的摘要到几十页的报告，不一而足。文档拆分能够规范每个 chunk 的大小，使整个语料库结构更加一致，便于后续批量处理、训练与检索操作。

1.3 提升向量表示质量

当嵌入模型对一段文本进行向量化时，它试图压缩整个语义空间到一个固定长度的向量中。如果输入文本过长，信息将不可避免地被"稀释"，导致嵌入表示不准确。通过将文档拆分为更短、更聚焦的片段，可以显著提升每个文本块的表示质量，使语义向量更能代表该段内容的核心含义。

1.4 提高向量检索精度

信息检索系统（如基于向量的搜索引擎）依赖嵌入向量进行相似度匹配。将长文档拆分为多个 chunk 后，可以让系统更细粒度地进行匹配，从而将用户查询精准地对齐到某一段落甚至某句话，提升召回质量和用户体验。

1.5 降低系统资源消耗

处理较小的文本块相比处理超长文本更高效：可以减少内存占用，加速计算过程，并支持更高效的并行处理。在嵌入、向量检索、缓存和模型调用等多个环节中，小块文本都能显著降低系统资源开销。

二、常用的文档拆分方法

LangChain 提供了多种文本拆分器（Text Splitter），可根据业务复杂度、文档结构与语义要求灵活选择，主要包括：

2.1 Character Text Splitter（字符文本分割器）

按指定字符（如 \n\n）进行纯规则拆分，速度快、无语义感知。

添加依赖

arduino 复制代码

%pip install -qU langchain-text-splitters

示例代码

ini 复制代码

from langchain_text_splitters import CharacterTextSplitter

# Load an example document
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    is_separator_regex=False,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])

2.2 RecursiveCharacterTextSplitter（递归字符分割器）

递归尝试多种分隔符（如段落、句子、空格）进行拆分，在保证 chunk 大小限制下尽量保留上下文。

添加依赖

arduino 复制代码

%pip install -qU langchain-text-splitters

示例代码

ini 复制代码

from langchain_text_splitters import RecursiveCharacterTextSplitter

# Load example document
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size=100,#块的最大大小，其中大小由 length_function 决定
    chunk_overlap=20,#数据块之间的目标重叠。重叠数据块有助于在数据块之间划分上下文时减少信息丢失。
    length_function=len,#确定块大小的函数。
    is_separator_regex=False,#分隔符列表（默认为 ["\n\n"， "\n"， " "， ""]）是否应解释为正则表达式。
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

2.3 Semantic Chunking（语义分割）

基于嵌入模型（如 OpenAI Embeddings）进行语义相似度划分，实现自然语义边界的 chunk 拆分。

安装依赖

css 复制代码

!pip install --quiet langchain_experimental langchain_openai

加载示例数据

python 复制代码

# This is a long document we can split up.
with open("state_of_the_union.txt") as f:
    state_of_the_union = f.read()

示例代码

ini 复制代码

from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings
# 创建文本拆分器
text_splitter = SemanticChunker(OpenAIEmbeddings())
# 拆分文本
docs = text_splitter.create_documents([state_of_the_union])
print(docs[0].page_content)

三、如何选择文档拆分策略？

根据实际业务需求、资源限制与文本特性，选择合适的拆分器至关重要：

拆分方式	是否语义感知	性能（速度/资源）	推荐场景
字符分割（Character）	否	高速	结构简单文档、低成本处理
递归字符分割（Recursive）	部分	中等	通用文本、内容连贯性较强的文档
语义分割（Semantic）	是	较慢	高质量知识库、高语义保留需求

✅ 推荐实践：

通用场景优先使用 RecursiveCharacterTextSplitter，兼顾上下文连续性与性能。

对知识密度高、业务价值大的内容，可进一步引入 SemanticChunker 实现语义增强。

不建议直接使用 CharacterTextSplitter 处理自然语言类内容，除非文档结构极为规范。

四、总结

文档拆分不仅是 RAG 系统的预处理步骤，更是影响整个问答链条表现的重要变量。合理的拆分策略能够有效压缩输入、提升向量表示质量、增强检索准确率，是构建高质量 LangChain 系统的基石。