RAG 加载 pdf 文档

加载 pdf 是复杂并且有多种不同方式的!

1. PyPDFLoader

python 复制代码
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("90-文档-Data/黑悟空/黑神话悟空.pdf")
pages = loader.load()

2. pymupdf

python 复制代码
import pymupdf
# 打开PDF文件
doc = pymupdf.open("90-文档-Data/黑悟空/黑神话悟空.pdf")
text = [page.get_text() for page in doc]

3. pdf2image + pytesseract

python 复制代码
# 扫描图片型 PDF,建议用 pytesseract + pdf2image  
# sudo apt-get install tesseract-ocr
# sudo apt-get install tesseract-ocr-chi-sim

import pdf2image
import pytesseract
import os

# 创建 output 目录
output_dir = 'output'
os.makedirs(output_dir, exist_ok=True)

# 将 PDF 转换为图片并保存
images = pdf2image.convert_from_path('90-文档-Data/黑悟空/黑神话悟空.pdf')
for i, image in enumerate(images):
    image.save(f'{output_dir}/page_{i+1}.png')

# 使用 pytesseract 提取文本
for i, image in enumerate(images):
    text = pytesseract.image_to_string(image, lang='chi_sim')

4. LlamaParse 和 MarkdownElementNodeParser

python 复制代码
# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   

# LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data(
    "90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)

from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)

print(nodes)

5. UnstructuredLoader

python 复制代码
from langchain_unstructured import UnstructuredLoader
loader = UnstructuredLoader(
    file_path="90-文档-Data/山西文旅/云冈石窟-en.pdf",  # PDF文件路径
    strategy="hi_res",    # 使用高分辨率策略进行文档处理
    # partition_via_api=True,  # 通过API进行文档分块
    # coordinates=True,     # 提取文本坐标信息
)
docs = []

# lazy_load() 是一种延迟加载方法
# 它不会一次性将所有文档加载到内存中,而是在需要时才逐个加载文档
# 这对于处理大型PDF文件时可以节省内存使用
for doc in loader.lazy_load():
    docs.append(doc)

print(docs)

6. 导入unstructured的partition函数用于PDF解析

python 复制代码
# 导入unstructured的partition函数用于PDF解析
from unstructured.partition.auto import partition

# 设置PDF文件路径
filename = "90-文档-Data/黑悟空/黑神话悟空.pdf"

# 使用partition函数解析PDF文件
# content_type指定文件类型为PDF
elements = partition(filename=filename, 
                   content_type="application/pdf"
                  )

# 展示解析出的elements的类型和内容
print("PDF解析后的Elements类型:")
for i, element in enumerate(elements[:5]):
    print(f"\nElement {i+1}:")
    print(f"类型: {type(element).__name__}")
    print(f"内容: {str(element)}")
    print("-" * 50)

# 统计不同类型elements的数量
element_types = {}
for element in elements:
    element_type = type(element).__name__
    element_types[element_type] = element_types.get(element_type, 0) + 1

print("\nElements类型统计:")
for element_type, count in element_types.items():
    print(f"{element_type}: {count}个")
相关推荐
aerror1 小时前
如何使用ubuntu搭建一个无盘PC启动服务器
linux·服务器·ubuntu
小小小小宇1 小时前
git 大仓库拉取卡顿问题
前端
SWAGGY..1 小时前
Linux系统编程:(五)基础开发工具:vim编辑器的使用及其配置操作
linux·编辑器·vim
前端那点事1 小时前
告别低级冗余!10个前端原生高阶技巧,让代码更优雅、性能更出众
前端·vue.js
hexu_blog1 小时前
前端vue后端java如何实现证件照功能
前端·javascript·vue.js
豹哥学前端1 小时前
前端 LocalStorage 实战:从入门到熟练,一篇就够了
前端·javascript·面试
用户40189933422841 小时前
第 11 章 MCP 协议与集成
前端
Southern Wind1 小时前
谷记账——一个 Vue 3 批次记账 App
前端·javascript·vue.js
优化控制仿真模型2 小时前
30套高级毕业答辩ppt模版(免费下载)
经验分享·pdf