Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
小乔的编程内容分享站2 分钟前
C语言笔记之结构体第二篇
c语言·开发语言·笔记
codeJinger4 分钟前
【Python】集合
开发语言·python
威联通安全存储5 分钟前
严谨性的数字基石:某精密医疗器械企业基于威联通的数据治理实践
运维·数据库·python
俩娃妈教编程6 分钟前
C++基础知识点:位运算
java·开发语言·jvm·c++·位运算
zhoupenghui1687 分钟前
golang 锁实现原理与解析&锁机制(sync)种类与举例说明以及其使用场景
开发语言·后端·golang·mutex·wait·lock·sync
计算机徐师兄10 分钟前
Python基于Django的汉语文本阅读难度分级系统(附源码,文档说明)
python·机器学习·django·汉语文本阅读难度分级系统·python文本阅读难度分级·文本阅读难度分级系统·汉语文本阅读难度分级
路弥行至10 分钟前
linux运行脚本出现错误信息 /bin/bash^M: bad interpreter解决方法
linux·运维·开发语言·经验分享·笔记·其他·bash
一直不明飞行12 分钟前
C++ pari使用的两个注意事项
开发语言·c++
LinuxGeek102412 分钟前
从Centos-7迁移和升级到(银河麒麟)Kylin V7的教程
python·centos·kylin
烟锁池塘柳015 分钟前
【Anaconda】修改 Conda 环境存储路径的几种方法(详细教程)
python·pycharm·conda