Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
Xin_ye10086几秒前
C# 零基础到精通教程 - WPF 深度专题:自定义布局与性能优化
开发语言·c#·wpf
努力努力再努力wz几秒前
【C++高阶数据结构系列】:跳表 SkipList 详解:多层索引、随机晋升与C++ 完整实现(附跳表实现的源码)
开发语言·数据结构·数据库·c++·redis·缓存·skiplist
更深兼春远2 分钟前
scala基于IDEA部署
开发语言·scala·intellij-idea
AIFQuant3 分钟前
贵金属投资 APP 开发:实时报价、图表、提醒与交易数据全链路
开发语言·前端·websocket·金融·web app
花落yu4 分钟前
AI学习:第2天
人工智能·python·学习
极光代码工作室5 分钟前
基于深度学习的文本自动摘要系统
人工智能·python·深度学习·神经网络
小七在进步5 分钟前
C语言:编译与链接
c语言·开发语言
shuoshuohaohao6 分钟前
《JavaScript》
开发语言·前端·javascript
ch.ju8 分钟前
Java程序设计(第3版)第四章——私有属性
java·开发语言
开源量化GO9 分钟前
期货量化订不到行情:天勤合约代码与交易所符号写法
python·区块链