使用 PyMuPDF（fitz）库打开 PDF 文件，并且是从内存中的字节流（BytesIO）读取 PDF 内容

背太阳的牧羊人2025-04-02 17:49

使用 PyMuPDF（fitz）库打开 PDF 文件 ，并且是从内存中的字节流（BytesIO）读取 PDF 内容，而不是直接从文件路径加载。

详细解释

python 复制代码

import fitz  # PyMuPDF 库，用于处理 PDF 文件
pdf_document = fitz.open(stream=BytesIO(pdf_content), filetype="pdf")

pdf_content ：这个变量应是 PDF 文件的二进制数据 （例如，pdf_content = some_pdf_file.read()）。
BytesIO(pdf_content) ：将 pdf_content 转换为内存中的字节流 ，模拟文件读取，使 fitz.open() 可以像处理本地文件一样读取 PDF。
fitz.open()
- stream=BytesIO(pdf_content)：表示从字节流（即内存中的 PDF 数据）打开文件，而不是从磁盘文件路径打开。
- filetype="pdf"：指定文件类型为 "pdf"，这样 fitz 就不会误判格式。

举个例子

假设 pdf_content 是一个从某个 API 下载的 PDF 文件内容：

python 复制代码

import requests
from io import BytesIO
import fitz

# 从 URL 获取 PDF 文件
url = "https://www.example.com/sample.pdf"
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    pdf_content = response.content  # 获取 PDF 文件的二进制数据

    # 使用 PyMuPDF 从二进制数据加载 PDF
    pdf_document = fitz.open(stream=BytesIO(pdf_content), filetype="pdf")

    # 读取第一页文本
    first_page_text = pdf_document[0].get_text()
    print(first_page_text)

    pdf_document.close()

总结

代码适用于处理二进制格式的 PDF 文件，尤其是在：

PDF 直接从 API/网络请求获取，不存到本地文件时。
PDF 作为字节数据存储在数据库或其他系统中，需要直接解析时。
文件上传到 Web 应用后，想在内存中解析，避免文件存储操作时。

这样做的好处是节省 I/O 操作，提高性能，并能处理动态生成的 PDF 文件。