LangChain:与RAG相关的模块

写在最前

本篇博客主要整理LangChain中与RAG(Retrieval-Augmented Generation,即检索增强生成)相关的模块。但这部分内容不会详细介绍,原因主要有以下几点:

  • LangChain中数据处理与RAG相关的工具相对而言比较粗糙;
  • 这一类模块集成了太多第三方工具,无法一一详细介绍其用法;
  • LlamaIndex在数据处理上的工具会更丰富。

1. documents相关模块

LangChain中的langchain_community包的document_loadersdocument_compressorsdocument_transformers模块封装了很多文件处理工具。但目前使用下来效果没有那么惊艳,所以这里不会特别详细的介绍该模块。

1.1 document_loaders模块

document_loaders负责加载外部数据源中的数据(比如PDF、Word、Html页面),将其转换为内部可处理的文档格式。该模块下的类主要包括以下两大类别:

  • Loader读取器: Loader类都继承自BaseLoader类(该类的定义在langchain_core.document_loaders中),这一大类别一般可以直接接收文件的路径来读取文件内容。
  • Parser解析器:Parser继承BaseBlobParser(该类的定义在langchain_core.document_loaders中),这一个类别可以直接解析二进制数据Blob

这里仅以pdf文件的读取为例进行说明:

python 复制代码
from langchain_community.document_loaders import PDFMinerLoader
from langchain_community.document_loaders.parsers import PDFMinerParser
from langchain_core.documents.base import Blob

loader = PDFMinerLoader("llama2.pdf")
pages=loader.load_and_split()
print(pages[0])
print('===============')
blob=Blob.from_path("llama2.pdf")
parser=PDFMinerParser().parse(blob)
print(parser[0])

关于上述代码,有以下几点需要说明:

  • 这些文件读取器、解析器的都依赖其它专门的python包,比如上述代码中用到的PDFMinerLoader, 其背后使用的包为pdfminer.six。在运行代码之前,要先完成该包的安装。
  • 上述代码中Blob包的引用方法与当前LangChain官方案例中的引用方法不同(官方案例中的引用方法为from langchain_core.documents import Blob ),原因暂时不明。
1.2 document_compressors模块

从名称上看,该模块好像是对documents进行压缩,但从各个类的源代码中可以发现,该模块的主要完成对documents的重排。该模块中的类都继承自BaseDocumentCompressor类,有两个基本的方法:compress_documentsacompress_documents

目前document_compressors模块中的类主要有以下几种:DashScopeRerankFlashrankRerankJinaRerank等。不同的类方法会有些差异。这里仅以阿里的DashScopeRerank为例进行说明,具体如下

python 复制代码
from langchain_community.document_compressors import DashScopeRerank
from dotenv import load_dotenv,find_dotenv
from langchain_core.documents import Document
_=load_dotenv(find_dotenv())
docs=[
    Document(page_content="今天天气很好"),
    Document(page_content="今天星期一"),
    Document(page_content="今天将会有新人加入我们"),
]
new_docs=DashScopeRerank().compress_documents(docs,query="今天是周几")
print(new_docs)

其运行结果如下:

bash 复制代码
[Document(metadata={'relevance_score': 0.5411219497495873}, page_content='今天星期一'), 
Document(metadata={'relevance_score': 0.2763095655416217}, page_content='今天将会有新人加入我们'),
Document(metadata={'relevance_score': 0.1740313260790499}, page_content='今天天气很好')]
1.3 document_transformers模块

顾名思义,使用document_transformers中的类可以对文档进行转换,比如将文档转换成embedding向量,从文档中抽取问题对等。该模块中的类都继承虚拟类BaseDocumentTransforme,这里仅以EmbeddingsRedundantFilter为例进行说明(结果将展示出具体的embedding向量,这里不展示):

python 复制代码
from langchain_community.document_transformers import EmbeddingsRedundantFilter
from langchain_core.documents import Document
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
model_name = "BAAI/bge-large-en"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)
docs=[
    Document(page_content="早上好"),
    Document(page_content="你好"),
    Document(page_content="hello"),
]
new_docs=EmbeddingsRedundantFilter(
    embeddings=hf).transform_documents(docs)
print(new_docs)

2. embeddings模块

LangChain中的langchain_community.embedddings模块中集成了当下比较流行的embedding模型。在document_transformers模块中已经展示了embedding模型的使用,这里就不再赘述了。

3. retrievers模块

LangChain中的langchain_community.retrievers模块可以实现信息检索功能,即依据查询返回最相关的文档。langchain_community.retrievers模块中的类都继承自langchain_core.retrievers.BaseRetriever类,而BaseRetriever类实现了Runnable接口,因此该模块中的类可以集成到LCEL中。

这里仅以SVMRetriever为例来说明其用法。具体如下:

python 复制代码
from langchain_community.retrievers.svm import SVMRetriever
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
model_name = "BAAI/bge-large-en"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)
docs=["What is the capital of France?",
      "today is a good day",
      "this code is running well",
      "this code is not working"]
svm_retriever = SVMRetriever.from_texts(embeddings=hf,
                             texts=docs,k=2)
rel_docs=svm_retriever.invoke("the result of code")
print(rel_docs)

其结果如下:

bash 复制代码
[Document(page_content='this code is not working'), Document(page_content='this code is running well')]

4. vectorstores模块

LangChain中的langchain_community.vectorstores模块主要负责保存embedding向量及向量检索。

相关推荐
营赢盈英2 小时前
TypeError: expected string or buffer - Langchain, OpenAI Embeddings
langchain·azure·embeddings·openai api·rag
akhfuiigabv2 天前
探索LangChain中的最新NLP研究:创新与应用
人工智能·python·自然语言处理·langchain
人在旅途我渐行渐远2 天前
FewShotChatMessagePromptTemplate 和 FewShotPromptTemplate区别
langchain·少样本学习
akhfuiigabv2 天前
使用LangChain创建简单的语言模型应用程序【快速入门指南】
java·python·语言模型·langchain
洛阳泰山3 天前
Chainlit集成Langchain并使用通义千问AI知识库高级检索(多重查询)网页对话应用教程
人工智能·python·langchain·llm·chainlit
洛阳泰山4 天前
Chainlit集成Langchain并使用通义千问实现和数据库交互的网页对话应用增强扩展(text2sql)
数据库·python·langchain·交互·通义千问·postgres·chainlit
aehrutktrjk5 天前
使用 LangChain 和 Neo4j 构建智能图数据库查询系统
数据库·python·langchain·neo4j
写程序的小火箭6 天前
如何评估一个RAG(检索增强生成)系统-上篇
人工智能·gpt·语言模型·chatgpt·langchain
yuanlaile8 天前
AI教程_AI大模型 Prompt提示词工程 Langchain AI原生应用开发视频教程分享(IT营)
人工智能·langchain·prompt
再不会python就不礼貌了9 天前
轻松上手LangChain:新手必读的入门指南
开发语言·python·学习·langchain·prompt