Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
是苏浙5 分钟前
零基础入门C语言之贪吃蛇的实现
c语言·开发语言·数据结构
化作星辰24 分钟前
java 给鉴权kafka2.7(sasl)发送消息权限异常处理
java·大数据·开发语言·kafka
无极小卒24 分钟前
如何在三维空间中生成任意方向的矩形内部点位坐标
开发语言·算法·c#
克里斯蒂亚诺更新28 分钟前
微信小程序 点击某个marker改变其大小
开发语言·前端·javascript
檀越剑指大厂1 小时前
【Python系列】fastapi和flask中的阻塞问题
python·flask·fastapi
Alberta ゙2 小时前
C++初阶
开发语言·c++
YoungHong19922 小时前
【Python进阶】告别繁琐Debug!Loguru一键输出异常日志与变量值
python·debug·异常处理·日志·loguru·log·logger
the白勺2 小时前
RabbitMQ-基础-总结
开发语言·c#
AiXed2 小时前
PC微信协议之nid算法
python·网络协议·算法·微信
Dev7z2 小时前
基于Matlab多目标粒子群优化的无人机三维路径规划与避障研究
开发语言·matlab·无人机