基于langchain框架的智能PDF问答(一)创建向量数据库

首先安装langchain,安装完之后就可以开始我们的步骤了

python 复制代码
pip install langchain

第一步

我们可以先创建一个Python文件,用于将PDF加载到我们本地的向量数据库中
一、读取文档
加载PDFX需要用到文本加载器,导入PyPDFLoader这个函数

python 复制代码
#读取文档
from langchain.document_loaders import PyPDFLoader
##文档路径
temp_file_path = "10.19.pdf"
##解析文档
loader = PyPDFLoader(temp_file_path)
##转换文档格式
docs = loader.load()

二、文本分割
因为大语言模型通常都有输入字数限制,所以需要对文本就行切割传输,这里用到文本切割器,需要用到库中RecursiveCharacterTextSplitter这个函数

python 复制代码
#文本切割
from langchain_text_splitters import RecursiveCharacterTextSplitter
##创建一个文本切割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,##每个文本块的大小
    chunk_overlap=50,##与前面重叠的大小
    separators=["\n", "。", "!", "?", ",", "、", ""]#分隔符
)
##使用创建的文本分割器对文本进行分割
texts = text_splitter.split_documents(docs)

三、创建嵌入模型
我这里使用的是百度千帆大模型,因为一开始注册会提供20元的卷,这里需要你自己去注册申请AK和SK
至于为什么创建的是嵌入模型,嵌入模型的主要任务是将自然语言文本转换为数字向量,使得模型能够理解和处理文本数据。
这里需要引入os(设置环境变量),QianfanEmbeddingsEndpoint(千帆嵌入模型)

python 复制代码
#创建嵌入模型
import os
from langchain_community.embeddings import QianfanEmbeddingsEndpoint

##设置环境变量
os.environ['QIANFAN_AK'] = "你自己的AK"
os.environ['QIANFAN_SK'] = "你自己的SK"
##创建模型
embeddings_model = QianfanEmbeddingsEndpoint()

四、创建本地向量数据库,并添入向量数据
这里我用的Chroma向量数据库,相应的也需要引用这个函数Chroma

python 复制代码
#创建本地向量数据库
from langchain.vectorstores import Chroma
##数量数据库保存位置
persist_directory = 'date'
##通过嵌入模型,创建向量数据库
vectordb = Chroma(
    embedding_function=embeddings_model,##调用刚刚创建的嵌入模型
    persist_directory=persist_directory##向量数据库保存位置
)

#将处理好的pdf数据添加到向量数据库中
vectordb.add_documents(
    documents=texts
)
# 确保持久化保存更新
vectordb.persist()
相关推荐
wuyu112519 分钟前
Qt字符编码
数据库·mysql·mybatis
许灵均均1 小时前
数据库视图
数据库
engchina3 小时前
Neo4j数据库清理指南:如何安全地删除所有节点和索引
数据库·neo4j
Erorrs3 小时前
Android13 系统/用户证书安装相关分析总结(二) 如何增加一个安装系统证书的接口
android·java·数据库
许苑向上4 小时前
最详细【Elasticsearch】Elasticsearch Java API + Spring Boot集成 实战入门(基础篇)
java·数据库·spring boot·elasticsearch
科研小达人5 小时前
Langchain调用模型使用FAISS
python·chatgpt·langchain·faiss
CodeCraft Studio5 小时前
【实用技能】在 SQL Server 中使用 LIMIT 子句的替代方案
数据库·sql·sqlserver
jlting1956 小时前
HiveSQL 中判断字段是否包含某个值的方法
数据库·sql
求一个好offer拜托拜托6 小时前
SQL常见语法
数据库·sql
喵手6 小时前
PostgreSQL 增量备份:保护你的数据资产
数据库·postgresql