加载 pdf 是复杂并且有多种不同方式的!
1. PyPDFLoader
python
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("90-文档-Data/黑悟空/黑神话悟空.pdf")
pages = loader.load()
2. pymupdf
python
import pymupdf
# 打开PDF文件
doc = pymupdf.open("90-文档-Data/黑悟空/黑神话悟空.pdf")
text = [page.get_text() for page in doc]
3. pdf2image + pytesseract
python
# 扫描图片型 PDF,建议用 pytesseract + pdf2image
# sudo apt-get install tesseract-ocr
# sudo apt-get install tesseract-ocr-chi-sim
import pdf2image
import pytesseract
import os
# 创建 output 目录
output_dir = 'output'
os.makedirs(output_dir, exist_ok=True)
# 将 PDF 转换为图片并保存
images = pdf2image.convert_from_path('90-文档-Data/黑悟空/黑神话悟空.pdf')
for i, image in enumerate(images):
image.save(f'{output_dir}/page_{i+1}.png')
# 使用 pytesseract 提取文本
for i, image in enumerate(images):
text = pytesseract.image_to_string(image, lang='chi_sim')
4. LlamaParse 和 MarkdownElementNodeParser
python
# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()
# LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data(
"90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)
from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)
print(nodes)
5. UnstructuredLoader
python
from langchain_unstructured import UnstructuredLoader
loader = UnstructuredLoader(
file_path="90-文档-Data/山西文旅/云冈石窟-en.pdf", # PDF文件路径
strategy="hi_res", # 使用高分辨率策略进行文档处理
# partition_via_api=True, # 通过API进行文档分块
# coordinates=True, # 提取文本坐标信息
)
docs = []
# lazy_load() 是一种延迟加载方法
# 它不会一次性将所有文档加载到内存中,而是在需要时才逐个加载文档
# 这对于处理大型PDF文件时可以节省内存使用
for doc in loader.lazy_load():
docs.append(doc)
print(docs)
6. 导入unstructured的partition函数用于PDF解析
python
# 导入unstructured的partition函数用于PDF解析
from unstructured.partition.auto import partition
# 设置PDF文件路径
filename = "90-文档-Data/黑悟空/黑神话悟空.pdf"
# 使用partition函数解析PDF文件
# content_type指定文件类型为PDF
elements = partition(filename=filename,
content_type="application/pdf"
)
# 展示解析出的elements的类型和内容
print("PDF解析后的Elements类型:")
for i, element in enumerate(elements[:5]):
print(f"\nElement {i+1}:")
print(f"类型: {type(element).__name__}")
print(f"内容: {str(element)}")
print("-" * 50)
# 统计不同类型elements的数量
element_types = {}
for element in elements:
element_type = type(element).__name__
element_types[element_type] = element_types.get(element_type, 0) + 1
print("\nElements类型统计:")
for element_type, count in element_types.items():
print(f"{element_type}: {count}个")