分类目录:《自然语言处理从入门到应用》总目录
当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义相关"可能取决于文本的类型。本文就展示了几种实现这一目标的方法。
在高层次上,文本分割器的工作原理如下:
- 将文本分割成小的、语义有意义的块(通常是句子)。
- 开始将这些小块组合成较大的块,直到达到一定的大小(由某个函数衡量)。
- 一旦达到该大小,将该块作为自己的文本片段,然后开始创建一个具有一定重叠的新文本块(以保持块之间的上下文)。
这意味着有两个不同的方向可以定制文本分割器:
- 文本如何被分割
- 块的大小如何衡量
默认推荐的文本分割器是RecursiveCharacterTextSplitter
。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块,但如果有任何分块过大,它将继续尝试下一个字符,依此类推。默认情况下,它尝试进行分割的字符是\n\n
、\n
等。除了控制分割的字符之外,我们还可以控制其他一些内容:
length_function
:如何计算分块的长度。默认只计算字符数,但通常在这里传递一个标记计数器。chunk_size
:分块的最大大小(由长度函数测量)。chunk_overlap
:分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性(例如使用滑动窗口)。add_start_index
:是否在元数据中包含每个分块在原始文档中的起始位置。
csharp
# This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:
state_of_the_union = f.read()
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
# Set a really small chunk size, just to show.
chunk_size = 100,
chunk_overlap = 20,
length_function = len,
add_start_index = True,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])
输出:
csharp
page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0} page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}
我们还可以使用文本分割器分割下列类型的文件:
- Character
- HTML
- Latex
- Markdown
- NLTK
- Python
- Recursive Character
- spaCy
- tiktoken(OpenAI)
参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/