Python 提取加密的 PDF 中的文字

依赖

  • Python 库:fitz
shell 复制代码
$ python -m pip install fitz
  • 注:如果运行下述脚本过程中遇到 No module named 'frontend',可执行 python -m pip install frontend(要求 Python >=3.8)或 python -m pip install PyMuPDF

Python 脚本

python 复制代码
# extract_pdf_text.py
import fitz

def parsePDF(filePath):
    with fitz.open(filePath) as doc:
        text = ""
        for page in doc.pages():
            text += page.get_text()
        if text:
            return text

text = parsePDF(r'D:\downloads\intput.pdf')
with open('output.txt', mode='w', encoding='utf8') as f:
    f.write(text)

参考

相关推荐
袁袁袁袁满12 分钟前
Haystack与亮数据MCP工具结合实现自动化爬虫
爬虫·python·网络爬虫·数据采集·爬虫实战·视频爬虫·特推爬虫
newbiai14 分钟前
2026马年春晚:火山引擎驱动AI新体验?
人工智能·python·火山引擎
iameyama20 分钟前
Amazon Redshift 和 BigQuery 数据类型区别
java·开发语言
-孤存-25 分钟前
Spring Bean作用域与生命周期全解析
java·开发语言·前端
Remember_99333 分钟前
SpringCloud:Nacos注册中心
java·开发语言·后端·算法·spring·spring cloud·list
几何心凉1 小时前
AI时代结合Haystack实现自定义数据抓取工具
开发语言
小鸡吃米…1 小时前
TensorFlow 实现异或(XOR)运算
人工智能·python·tensorflow·neo4j
深蓝电商API1 小时前
Redis 作为爬虫去重与任务队列实战
爬虫·python
csbysj20201 小时前
JSP 文件上传详解
开发语言
郝学胜-神的一滴1 小时前
FastAPI:Python 高性能 Web 框架的优雅之选
开发语言·前端·数据结构·python·算法·fastapi