自定义 LangChain 文档加载器使用技巧

01. 自定义加载器使用技巧

对于一些企业的内部数据,例如数据库、API接口等定制化非常强的数据,如果使用通用的文档加载器进行提取,虽然可以提取记录到相应的信息,但是加载的数据格式或者样式大概率没法满足我们的需求,这个时候就可以考虑实现自定义文档加载器。

例如上节课使用的 WebBaseLoader 文档加载器加载首页的信息,会提取得到很多空白数据(空格、换行、Tab 等),将这类数据通过分割存储到向量数据库中,会极大降低检索与生成的效率和正确性。

在 LangChain 中实现自定义文档加载器非常简单,只需要继承 BaseLoader 基类,然后实现 lazy_load() 方法即可,如果该文档加载器有异步使用的场景,还需要实现 alazy_load() 方法。

假设有一个这样的需求,加载对应的文本信息,其中每行数据都作为一个 Document 组件,该文档加载器实现示例

from typing import Iterator, AsyncIterator

from langchain_core.document_loaders import BaseLoader

from langchain_core.documents import Document

class CustomDocumentLoader(BaseLoader):

"""自定义文档加载器"""

def init(self, file_path: str) -> None:

self.file_path = file_path

def lazy_load(self) -> Iterator[Document]:

"""逐行读取文件的数据并使用yield返回文档"""

with open(self.file_path, encoding="utf-8") as f:

line_number = 0

for line in f:

yield Document(

page_content=line,

metadata={"line_number": line_number, "source": self.file_path}

)

line_number += 1

async def alazy_load(self) -> AsyncIterator[Document]:

"""lazy_load的异步方法,如果不实现,将委托lazy_load实现"""

import aiofiles

async with aiofiles.open(self.file_path, encoding="utf-8") as f:

line_number = 0

async for line in f:

yield Document(

page_content=line,

metadata={"line_number": line_number, "source": self.file_path}

)

line_number += 1

loader = CustomDocumentLoader("./喵喵.txt")

documents = loader.load()

print(documents)

print(len(documents))

print(documents[0].metadata)

输出示例

Document(page_content='喵喵��\\n', metadata={'line_number': 0, 'source': './喵喵.txt'}), Document(page_content='喵喵��\\n', metadata={'line_number': 1, 'source': './喵喵.txt'}), Document(page_content='喵����', metadata={'line_number': 2, 'source': './喵喵.txt'})

3

{'line_number': 0, 'source': './喵喵.txt'}

02. 文档加载器扩展思考

在上面的自定义文档加载器中,可以看到 lazy_load() 方法的两个核心步骤就是:读取文件数据、将文件数据解析成Document,并且绝大部分文档加载器都有着两个核心步骤,而且 读取文件数据 这个步骤大家都大差不差。

就像 *.md、*.txt、*.py 这类文本文件,甚至是 *.pdf、*.doc 等这类非文本文件,都可以使用同一个 读取文件数据 步骤将文件读取为 二进制内容,然后在使用不同的解析逻辑来解析对应的二进制内容,所以很容易可以得出:

文档加载器 = 二进制数据读取 + 解析逻辑

因此,在项目开发中,如果大量配置自定义文档解析器的话,将解析逻辑与加载逻辑分离,维护起来会更容易,而且也更容易复用相应的逻辑(具体使用哪种方式取决于开发)。

这样原先的 DocumentLoader 运行流程就变成了如下

这样所有 DocumentLoader 就变成了共用 Blob(数据读取),每个加载器内部只实现不同的 parse 即可,这也是 LangChain 目前正在设计的新方案

相关推荐
不吃香菜学java1 分钟前
Redis简单应用
数据库·spring boot·tomcat·maven
unicrom_深圳市由你创科技9 分钟前
做虚拟示波器这种实时波形显示的上位机,用什么语言?
c++·python·c#
小敬爱吃饭9 分钟前
Ragflow Docker部署及问题解决方案(界面为Welcome to nginx,ragflow上传文件失败,Docker中的ragflow-cpu-1一直重启)
人工智能·python·nginx·docker·语言模型·容器·数据挖掘
一个天蝎座 白勺 程序猿11 分钟前
Apache IoTDB(15):IoTDB查询写回(INTO子句)深度解析——从语法到实战的ETL全链路指南
数据库·apache·etl·iotdb
宸津-代码粉碎机16 分钟前
Spring Boot 4.0虚拟线程实战调优技巧,最大化发挥并发优势
java·人工智能·spring boot·后端·python
不知名的老吴16 分钟前
Redis的延迟瓶颈:TCP栈开销无法避免
数据库·redis·缓存
YOU OU17 分钟前
三大范式和E-R图
数据库
老兵发新帖25 分钟前
Hermes:比openclaw更好用的智能体?
人工智能
一江寒逸28 分钟前
零基础从入门到精通MySQL(上篇):筑基篇——吃透核心概念与基础操作,打通SQL入门第一关
数据库·sql·mysql
@土豆30 分钟前
Ubuntu 22.04 运行 Filebeat 7.11.2 崩溃问题分析及解决文档
linux·数据库·ubuntu