使用 PyMuPDF(fitz)库打开 PDF 文件,并且是从内存中的字节流(BytesIO)读取 PDF 内容

使用 PyMuPDF(fitz)库打开 PDF 文件 ,并且是从内存中的字节流(BytesIO)读取 PDF 内容,而不是直接从文件路径加载。

详细解释

python 复制代码
import fitz  # PyMuPDF 库,用于处理 PDF 文件
pdf_document = fitz.open(stream=BytesIO(pdf_content), filetype="pdf")
  • pdf_content :这个变量应是 PDF 文件的二进制数据 (例如,pdf_content = some_pdf_file.read())。
  • BytesIO(pdf_content) :将 pdf_content 转换为内存中的字节流 ,模拟文件读取,使 fitz.open() 可以像处理本地文件一样读取 PDF。
  • fitz.open()
    • stream=BytesIO(pdf_content):表示从字节流(即内存中的 PDF 数据)打开文件,而不是从磁盘文件路径打开。
    • filetype="pdf":指定文件类型为 "pdf",这样 fitz 就不会误判格式。

举个例子

假设 pdf_content 是一个从某个 API 下载的 PDF 文件内容:

python 复制代码
import requests
from io import BytesIO
import fitz

# 从 URL 获取 PDF 文件
url = "https://www.example.com/sample.pdf"
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    pdf_content = response.content  # 获取 PDF 文件的二进制数据

    # 使用 PyMuPDF 从二进制数据加载 PDF
    pdf_document = fitz.open(stream=BytesIO(pdf_content), filetype="pdf")

    # 读取第一页文本
    first_page_text = pdf_document[0].get_text()
    print(first_page_text)

    pdf_document.close()

总结

代码适用于处理二进制格式的 PDF 文件,尤其是在:

  1. PDF 直接从 API/网络请求获取,不存到本地文件时。
  2. PDF 作为字节数据存储在数据库或其他系统中,需要直接解析时。
  3. 文件上传到 Web 应用后,想在内存中解析,避免文件存储操作时。

这样做的好处是节省 I/O 操作,提高性能,并能处理动态生成的 PDF 文件

相关推荐
THRUSTER111118 分钟前
MySQL-- 函数(单行函数):数值函数, 字符串函数
数据库·mysql·函数·navicat·单行函数
橙序研工坊15 分钟前
MySQL的进阶语法7(索引-B+Tree 、Hash、聚集索引 、二级索引(回表查询)、索引的使用及设计原则
数据库·sql·mysql
Bruce-li__16 分钟前
深入理解Python asyncio:从入门到实战,掌握异步编程精髓
网络·数据库·python
小光学长1 小时前
基于vue框架的智能服务旅游管理系统54kd3(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库
Bonnie_12151 小时前
07-MySQL-事务的隔离级别以及底层原理
数据库·mysql
ETLCloud数据集成社区1 小时前
ETLCloud是如何通过Oracle实现CDC的?
数据库·oracle·etl·实时数据同步
KATA~1 小时前
解决MyBatis-Plus枚举映射错误:No enum constant问题
java·数据库·mybatis
xyliiiiiL1 小时前
一文总结常见项目排查
java·服务器·数据库
shaoing2 小时前
MySQL 错误 报错:Table ‘performance_schema.session_variables’ Doesn’t Exist
java·开发语言·数据库
用户6279947182622 小时前
南大通用GBase 8s 获取表的约束与索引列信息
数据库