基于langchain框架的智能PDF问答(一)创建向量数据库

首先安装langchain,安装完之后就可以开始我们的步骤了

python 复制代码
pip install langchain

第一步

我们可以先创建一个Python文件,用于将PDF加载到我们本地的向量数据库中
一、读取文档
加载PDFX需要用到文本加载器,导入PyPDFLoader这个函数

python 复制代码
#读取文档
from langchain.document_loaders import PyPDFLoader
##文档路径
temp_file_path = "10.19.pdf"
##解析文档
loader = PyPDFLoader(temp_file_path)
##转换文档格式
docs = loader.load()

二、文本分割
因为大语言模型通常都有输入字数限制,所以需要对文本就行切割传输,这里用到文本切割器,需要用到库中RecursiveCharacterTextSplitter这个函数

python 复制代码
#文本切割
from langchain_text_splitters import RecursiveCharacterTextSplitter
##创建一个文本切割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,##每个文本块的大小
    chunk_overlap=50,##与前面重叠的大小
    separators=["\n", "。", "!", "?", ",", "、", ""]#分隔符
)
##使用创建的文本分割器对文本进行分割
texts = text_splitter.split_documents(docs)

三、创建嵌入模型
我这里使用的是百度千帆大模型,因为一开始注册会提供20元的卷,这里需要你自己去注册申请AK和SK
至于为什么创建的是嵌入模型,嵌入模型的主要任务是将自然语言文本转换为数字向量,使得模型能够理解和处理文本数据。
这里需要引入os(设置环境变量),QianfanEmbeddingsEndpoint(千帆嵌入模型)

python 复制代码
#创建嵌入模型
import os
from langchain_community.embeddings import QianfanEmbeddingsEndpoint

##设置环境变量
os.environ['QIANFAN_AK'] = "你自己的AK"
os.environ['QIANFAN_SK'] = "你自己的SK"
##创建模型
embeddings_model = QianfanEmbeddingsEndpoint()

四、创建本地向量数据库,并添入向量数据
这里我用的Chroma向量数据库,相应的也需要引用这个函数Chroma

python 复制代码
#创建本地向量数据库
from langchain.vectorstores import Chroma
##数量数据库保存位置
persist_directory = 'date'
##通过嵌入模型,创建向量数据库
vectordb = Chroma(
    embedding_function=embeddings_model,##调用刚刚创建的嵌入模型
    persist_directory=persist_directory##向量数据库保存位置
)

#将处理好的pdf数据添加到向量数据库中
vectordb.add_documents(
    documents=texts
)
# 确保持久化保存更新
vectordb.persist()
相关推荐
AI大模型2 小时前
LangGraph官方文档笔记(七)——Agent的输入输出
langchain·llm·agent
计算机毕设定制辅导-无忧学长5 小时前
西门子 PLC 与 Modbus 集成:S7-1500 RTU/TCP 配置指南(一)
服务器·数据库·tcp/ip
程序员柳5 小时前
基于微信小程序的校园二手交易平台、微信小程序校园二手商城源代码+数据库+使用说明,layui+微信小程序+Spring Boot
数据库·微信小程序·layui
梦在深巷、5 小时前
MySQL/MariaDB数据库主从复制之基于二进制日志的方式
linux·数据库·mysql·mariadb
IT乌鸦坐飞机6 小时前
ansible部署数据库服务随机启动并创建用户和设置用户有完全权限
数据库·ansible·centos7
IT_10246 小时前
Spring Boot项目开发实战销售管理系统——数据库设计!
java·开发语言·数据库·spring boot·后端·oracle
祁思妙想7 小时前
八股学习(三)---MySQL
数据库·学习·mysql
惊骇世俗王某人7 小时前
1.MySQL之如何定位慢查询
数据库·mysql
秦歌6668 小时前
向量数据库-Milvus快速入门
数据库·milvus
Edingbrugh.南空9 小时前
Flink SQLServer CDC 环境配置与验证
数据库·sqlserver·flink