Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
程序员三藏34 分钟前
Jmeter自动化测试
自动化测试·软件测试·python·测试工具·jmeter·测试用例·接口测试
前端炒粉38 分钟前
35.LRU 缓存
开发语言·javascript·数据结构·算法·缓存·js
拓端研究室2 小时前
专题:2025AI产业全景洞察报告:企业应用、技术突破与市场机遇|附920+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·pdf
星释2 小时前
Rust 练习册 75:ETL与数据转换
开发语言·rust·etl
南风微微吹2 小时前
2026年新大纲普通话考试真题题库50套PDF电子版
pdf·普通话
happyjoey2172 小时前
使用Qt自带的Maintenance Tool将Qt6.9升级为QT6.10
开发语言·qt
吴佳浩3 小时前
Langchain 浅出
python·langchain·llm
smj2302_796826523 小时前
解决leetcode第3753题范围内总波动值II
python·算法·leetcode
mortimer3 小时前
破局视频翻译【最后一公里】––从语音克隆到口型对齐的完整工程思路
python·github·aigc
门框研究员5 小时前
解锁Python的强大能力:深入理解描述符
python