Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
winfredzhang3 分钟前
使用Python和Selenium打造一个全网页截图工具
开发语言·python·selenium
mahuifa11 分钟前
(10)python开发经验
开发语言·python
_龙小鱼_20 分钟前
Kotlin扩展简化Android动画开发
android·开发语言·kotlin
小伍_Five26 分钟前
spark数据处理练习题详解【上】
java·开发语言·spark·scala
mascon36 分钟前
C#自定义扩展方法 及 EventHandler<TEventArgs> 委托
开发语言·c#
Johny_Zhao37 分钟前
AI+自动化测试系统方案:网络设备与网络应用智能测试
linux·网络·人工智能·python·网络安全·docker·ai·信息安全·云计算·ansible·shell·cisco·huawei·系统运维·itsm·华三·deepseek
科雷软件测试1 小时前
Python的re模块:正则表达式处理的魔法棒
python
照物华1 小时前
python中http.cookiejar和http.cookie的区别
爬虫·python·http
Evand J1 小时前
【MATLAB例程】线性卡尔曼滤波的程序,三维状态量和观测量,较为简单,可用于理解多维KF,附代码下载链接
开发语言·matlab
苕皮蓝牙土豆1 小时前
C++ map容器: 插入操作
开发语言·c++