python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
___波子 Pro Max.8 小时前
Python类型注解详解与应用
python
1***Q7848 小时前
Python增强现实案例
开发语言·python·ar
Q26433650238 小时前
【有源码】spark与hadoop-情感挖掘+画像建模的携程酒店评价数据分析可视化系统-基于机器学习的携程酒店评价情感分析与竞争态势可视化
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
倚肆9 小时前
Spring Boot 中的 Bean 与自动装配详解
spring boot·后端·python
不剪发的Tony老师9 小时前
PyScripter:一款免费开源、功能强大的Python开发工具
ide·python
FL1717131414 小时前
Pytorch保存pt和pkl
人工智能·pytorch·python
爱学习的小道长16 小时前
进程、线程、协程三者的区别和联系
python·ubuntu
L-李俊漩17 小时前
MMN-MnnLlmChat 启动顺序解析
开发语言·python·mnn
大雷神17 小时前
HarmonyOS 横竖屏切换与响应式布局实战指南
python·深度学习·harmonyos
钅日 勿 XiName18 小时前
一小时速通pytorch之训练分类器(四)(完结)
人工智能·pytorch·python