RAG 加载 pdf 文档

加载 pdf 是复杂并且有多种不同方式的!

1. PyPDFLoader

python 复制代码
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("90-文档-Data/黑悟空/黑神话悟空.pdf")
pages = loader.load()

2. pymupdf

python 复制代码
import pymupdf
# 打开PDF文件
doc = pymupdf.open("90-文档-Data/黑悟空/黑神话悟空.pdf")
text = [page.get_text() for page in doc]

3. pdf2image + pytesseract

python 复制代码
# 扫描图片型 PDF,建议用 pytesseract + pdf2image  
# sudo apt-get install tesseract-ocr
# sudo apt-get install tesseract-ocr-chi-sim

import pdf2image
import pytesseract
import os

# 创建 output 目录
output_dir = 'output'
os.makedirs(output_dir, exist_ok=True)

# 将 PDF 转换为图片并保存
images = pdf2image.convert_from_path('90-文档-Data/黑悟空/黑神话悟空.pdf')
for i, image in enumerate(images):
    image.save(f'{output_dir}/page_{i+1}.png')

# 使用 pytesseract 提取文本
for i, image in enumerate(images):
    text = pytesseract.image_to_string(image, lang='chi_sim')

4. LlamaParse 和 MarkdownElementNodeParser

python 复制代码
# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   

# LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data(
    "90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)

from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)

print(nodes)

5. UnstructuredLoader

python 复制代码
from langchain_unstructured import UnstructuredLoader
loader = UnstructuredLoader(
    file_path="90-文档-Data/山西文旅/云冈石窟-en.pdf",  # PDF文件路径
    strategy="hi_res",    # 使用高分辨率策略进行文档处理
    # partition_via_api=True,  # 通过API进行文档分块
    # coordinates=True,     # 提取文本坐标信息
)
docs = []

# lazy_load() 是一种延迟加载方法
# 它不会一次性将所有文档加载到内存中,而是在需要时才逐个加载文档
# 这对于处理大型PDF文件时可以节省内存使用
for doc in loader.lazy_load():
    docs.append(doc)

print(docs)

6. 导入unstructured的partition函数用于PDF解析

python 复制代码
# 导入unstructured的partition函数用于PDF解析
from unstructured.partition.auto import partition

# 设置PDF文件路径
filename = "90-文档-Data/黑悟空/黑神话悟空.pdf"

# 使用partition函数解析PDF文件
# content_type指定文件类型为PDF
elements = partition(filename=filename, 
                   content_type="application/pdf"
                  )

# 展示解析出的elements的类型和内容
print("PDF解析后的Elements类型:")
for i, element in enumerate(elements[:5]):
    print(f"\nElement {i+1}:")
    print(f"类型: {type(element).__name__}")
    print(f"内容: {str(element)}")
    print("-" * 50)

# 统计不同类型elements的数量
element_types = {}
for element in elements:
    element_type = type(element).__name__
    element_types[element_type] = element_types.get(element_type, 0) + 1

print("\nElements类型统计:")
for element_type, count in element_types.items():
    print(f"{element_type}: {count}个")
相关推荐
yuanyxh3 小时前
Mac 软件推荐
前端·javascript·程序员
万少3 小时前
AtomCode开发微信小程序《谁去呀》 全流程
前端·javascript·后端
某人辛木3 小时前
Web自动化测试
前端·python·pycharm·pytest
能喵烧香3 小时前
深度解析:Linux 与 Windows 超级权限账户的本质差异
linux·windows
Kagol4 小时前
Superpowers GSD gstack AgentSkills深度测评
前端·人工智能
2603_954138394 小时前
PDF 转 Word 工具深度评测:从参数解析到实战避坑
pdf·word
excel4 小时前
JavaScript 字符串与模板字面量:从表象到本质理解
前端
京东云开发者5 小时前
当AI成为导演-如何用AI创作动漫短剧
前端
李白的天不白5 小时前
使用 SmartAdmin 进行前后端开发
java·前端
Moshow郑锴5 小时前
Ubuntu 26.04 中文输入法 : fcitx5+Rime中州韵引擎
linux·运维·ubuntu