使用chatgpt api快速分析pdf

需求背景

搞材料的兄弟经常要分析pdf,然后看到国外有产品是专门调用chatpdf来分析pdf的,所以就来问我能不能帮他也做一个出来。正好我有chatgpt的api,所以就研究了一下这玩意怎么弄。

需求分析

由于chatgpt是按字符算钱的,所以如果把整个pdf文本全部塞进去,虽然效果是好了,但是钱花的巨快。测试的时候不小心传了个86页的pdf进去,好家伙,直接余额变负值了,一下子花了6刀多。。。。所以我们只能先对pdf做预处理,主要使用了langchain包加载和生成向量库

引入依赖

python 复制代码
from langchain.document_loaders import PyPDFLoader
from langchain.indexes.vectorstore import VectorstoreIndexCreator
from langchain.vectorstores.chroma import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.indexes.vectorstore import VectorStoreIndexWrapper

生成向量

python 复制代码
# https://chatpdf4cn.com/
def load_pdf_and_save_to_index(file_path, index_name):
    loader = PyPDFLoader(file_path)
    index = VectorstoreIndexCreator(vectorstore_kwargs={"persist_directory":get_index_path(index_name)}).from_loaders({loader})
    print('save')

    index.vectorstore.persist()

加载向量库

python 复制代码
def load_index(index_name):
    index_path=get_index_path(index_name)
    embedding = OpenAIEmbeddings()
    vectordb = Chroma(
    persist_directory=index_path,
    embedding_function=embedding
 )
    return VectorStoreIndexWrapper(vectorstore=vectordb)

最后调用chatgpt访问

python 复制代码
load_pdf_and_save_to_index(file_path, index_name)
index = load_index(index_name)

ans = index.query("文章中提到的两种磁化模式有什么区别?",chain_type_kwargs={}) #RetrievalQAWithSourcesChain

print(ans)

附上完整项目试用地址
chatpdf4cn

调用chatgpt接口还是蛮贵的,所以限制了试用次数,如果有需要的可以联系我开放限制,希望能反馈一些使用意见。

相关推荐
cloud studio AI应用1 天前
GPT-5.2-Codex 可用!IDE、插件、CLI 国际版已同步上线
chatgpt·ai编程·腾讯云ai代码助手·codebuddy
Hcoco_me1 天前
大模型面试题74:在使用GRPO训练LLM时,训练数据有什么要求?
人工智能·深度学习·算法·机器学习·chatgpt·机器人
zhangfeng11331 天前
[图书推荐]1000本电子书的开源项目 pdf
pdf
SunnyDays10111 天前
Java 旋转 PDF 页面完整指南(含示例)
java·pdf·pdf页面旋转·旋转pdf页面
JaredYe1 天前
纯 Node.js 的 PDF 转 Markdown 方案:支持图片解析的pdf2md库 `node-pdf-to-markdown`
pdf·node.js·markdown·md·pdf2md
wxl7812271 天前
基于Cognee实现PDF图文并茂解析与检索的实践方案
pdf·ocr·图文并茂·cognee
林恒smileZAZ1 天前
前端 HTML 转 PDF
前端·pdf·html
好像不对劲1 天前
python去除pdf白边
开发语言·python·pdf·kindle
avi91111 天前
[Unity] 仙剑源码-仙剑奇侠传移动版分析 - 开篇;[Lua] [A1相关],DeepSeek学习脚手架源码
chatgpt·aigc·lua·deepseek·仙剑移动版·仙剑
sg_knight1 天前
Claude Code 与 ChatGPT、Copilot 有什么区别?
人工智能·chatgpt·llm·copilot·claude·ai大模型·claude-code