Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
共享家9527几秒前
单例模式( 饿汉式与懒汉式 )
开发语言·javascript·ecmascript
_饭团2 分钟前
C 语言内存函数全解析:从 memcpy 到 memcmp 的使用与模拟实现
c语言·开发语言·c++·学习·算法·面试·改行学it
~无忧花开~10 分钟前
React组件与Props完全指南
开发语言·前端·react
全栈凯哥11 分钟前
19.Python中的标准库完全指南
python
2401_8845632412 分钟前
C++中的观察者模式实战
开发语言·c++·算法
lsx20240613 分钟前
SQL MAX() 函数详解
开发语言
毕设源码-邱学长14 分钟前
【开题答辩全过程】以 基于python的天气预测可视化系统为例,包含答辩的问题和答案
开发语言·python
椰猫子17 分钟前
html、css入门
开发语言·javascript·ecmascript
是翔仔呐24 分钟前
C语言从黑框框到控硬件!51单片机零基础保姆式全系列教程 开篇前言+全书总览
c语言·开发语言·单片机·嵌入式硬件·gitee·51单片机
B站计算机毕业设计之家27 分钟前
Python 基于协同过滤的动漫推荐与数据分析平台 Django框架 协同过滤推荐算法 可视化 数据分析 大数据 大模型 计算机毕业设计(建议收藏)✅
大数据·python·scrapy·数据分析·django·课程设计·推荐算法