基于Python的自然语言处理系列(60):使用 LangChain 构建 Multi-Vector Retriever 进行文档检索

在 NLP 和 AI 领域,基于嵌入(Embeddings)进行文档检索已成为一种高效的解决方案。本文介绍如何使用 LangChain 构建 Multi-Vector Retriever,实现对长文档的分块索引和高效检索。

1. 环境准备

首先,我们需要安装相关依赖库。

复制代码
pip install langchain chromadb torch transformers

2. 加载文档并进行预处理

我们先使用 TextLoader 读取多个文档,并进行分块处理,以便后续向量化索引。

复制代码
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

loaders = [
    TextLoader("../docs/txt/paul_graham_essay.txt"),
    TextLoader("../docs/txt/state_of_the_union.txt"),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())

# 设定 chunk size 以确保文档分块合理
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000)
docs = text_splitter.split_documents(docs)

3. 选择嵌入模型

这里我们使用 HuggingFaceInstructEmbeddings 进行向量化,支持 GPU 加速。

复制代码
from langchain.embeddings import HuggingFaceInstructEmbeddings
import torch

embedding_model = HuggingFaceInstructEmbeddings(
    model_name='hkunlp/instructor-base',
    model_kwargs={'device': torch.device('cuda' if torch.cuda.is_available() else 'cpu')}
)

4. 构建向量存储与检索器

使用 Chroma 作为向量数据库,并配置 MultiVectorRetriever

复制代码
from langchain.vectorstores import Chroma
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryStore
import uuid

# 创建向量存储
vectorstore = Chroma(collection_name="full_documents", embedding_function=embedding_model)

# 使用 InMemoryStore 作为存储层
store = InMemoryStore()
id_key = "doc_id"
retriever = MultiVectorRetriever(vectorstore=vectorstore, docstore=store, id_key=id_key)

# 生成唯一文档 ID
doc_ids = [str(uuid.uuid4()) for _ in docs]

5. 进一步拆分文档并存储

使用 RecursiveCharacterTextSplitter 进一步拆分子文档,并添加到向量存储中。

复制代码
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

sub_docs = []
for i, doc in enumerate(docs):
    _id = doc_ids[i]
    _sub_docs = child_text_splitter.split_documents([doc])
    for _doc in _sub_docs:
        _doc.metadata[id_key] = _id
    sub_docs.extend(_sub_docs)

retriever.vectorstore.add_documents(sub_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))

6. 进行相似度搜索

我们可以使用 similarity_search 进行相似内容检索。

复制代码
retriever.vectorstore.similarity_search("justice breyer")

或者使用 get_relevant_documents 查找相关文档:

复制代码
retriever.get_relevant_documents("retriever")

7. 结论

通过 LangChain 的 Multi-Vector Retriever,我们能够高效地处理长文档并实现精准检索。结合 HuggingFace 的嵌入模型和 Chroma 向量数据库,可以实现快速的文本相似度匹配,非常适用于 法律文档、技术文档 等长文本搜索任务。

如果你对 LangChain 的更多应用感兴趣,欢迎在评论区交流!

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

相关推荐
特立独行的猫a1 小时前
HarmonyOS 【诗韵悠然】AI古诗词赏析APP开发实战从零到一系列(一、开篇,项目介绍)
人工智能·华为·harmonyos·古诗词
yu4106212 小时前
2025年中期大语言模型实力深度剖析
人工智能·语言模型·自然语言处理
feng995204 小时前
技术伦理双轨认证如何重构AI工程师能力评估体系——基于AAIA框架的技术解析与行业实证研究
人工智能·aaif·aaia·iaaai
2301_776681655 小时前
【用「概率思维」重新理解生活】
开发语言·人工智能·自然语言处理
蜡笔小新..5 小时前
从零开始:用PyTorch构建CIFAR-10图像分类模型达到接近1的准确率
人工智能·pytorch·机器学习·分类·cifar-10
富唯智能5 小时前
转运机器人可以绕障吗?
人工智能·智能机器人·转运机器人
沅_Yuan5 小时前
基于小波神经网络(WNN)的回归预测模型【MATLAB】
深度学习·神经网络·matlab·回归·小波神经网络·wnn
视觉语言导航6 小时前
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解
人工智能·深度学习·具身智能
AidLux6 小时前
端侧智能重构智能监控新路径 | 2025 高通边缘智能创新应用大赛第三场公开课来袭!
大数据·人工智能
引量AI6 小时前
TikTok矩阵运营干货:从0到1打造爆款矩阵
人工智能·矩阵·自动化·tiktok矩阵·海外社媒