import io
import pdfplumber
from opencc import OpenCC
import fitz # pymupdf
import os
file_path = '/document/pdf/xxx.pdf'
output_dir = '/classification/pdf/images'
#获取图片 demo
def extract_images_from_pdf(pdf_path, output_dir):
# 确保输出目录存在
if not os.path.exists(output_dir):
os.makedirs(output_dir)
# 打开PDF文件
doc = fitz.open(pdf_path)
page_count = doc.page_count
# 遍历PDF的每一页
for page_num in range(page_count):
page = doc.load_page(page_num)
# 获取页面中的图片信息
images = page.get_images(full=True)
image_index = 0
for img_index, img in enumerate(images):
xref = img[0]
base_image = doc.extract_image(xref)
image_bytes = base_image["image"]
image_ext = base_image["ext"]
# 使用Pillow将图片保存到本地
from PIL import Image
image = Image.open(io.BytesIO(image_bytes))
image_path = os.path.join(output_dir, f"image_{page_num + 1}_{image_index + 1}.{image_ext}")
image.save(image_path)
image_index += 1
doc.close()
# 使用示例
extract_images_from_pdf(file_path, output_dir)
cc = OpenCC('t2s')
def read_pdf_with_pdfplumber(file_path):
images = []
with (pdfplumber.open(file_path) as pdf):
num_pages = len(pdf.pages)
print(f"Number of pages: {num_pages}")
text = pdf.pages[0].extract_text()
text = cc.convert(text)
print(text)
# 示例用法
read_pdf_with_pdfplumber(file_path)
python读取pdf文档
jxf_jxfcsdn2025-02-22 15:04
相关推荐
孟健1 小时前
Karpathy 用 200 行纯 Python 从零实现 GPT:代码逐行解析码路飞3 小时前
写了个 AI 聊天页面,被 5 种流式格式折腾了一整天 😭曲幽5 小时前
FastAPI压力测试实战:Locust模拟真实用户并发及优化建议敏编程10 小时前
一天一个Python库:jsonschema - JSON 数据验证利器前端付豪10 小时前
LangChain记忆:通过Memory记住上次的对话细节databook10 小时前
ManimCE v0.20.1 发布:LaTeX 渲染修复与动画稳定性提升花酒锄作田1 天前
使用 pkgutil 实现动态插件系统前端付豪1 天前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件曲幽1 天前
FastAPI实战:打造本地文生图接口,ollama+diffusers让AI绘画更听话老赵全栈实战1 天前
Pydantic配置管理最佳实践(一)