python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
Ulyanov10 分钟前
PyVista与Tkinter桌面级3D可视化应用实战
开发语言·前端·python·3d·信息可视化·tkinter·gui开发
子午21 分钟前
【2026原创】文本情感识别系统~Python+深度学习+textCNN算法+舆情文本+模型训练
python·深度学习·算法
SunnyRivers23 分钟前
uv 与 pip:Python 包与依赖管理工具对比
python·pip·uv
计算机网恋27 分钟前
PyCharm左侧的提交按钮不显示的解决办法
ide·python·pycharm
2501_9413331034 分钟前
【Centernet改进版】基于ResNet50的纱布检测系统实现详解
python
LiuPig刘皮哥44 分钟前
llamaindex 使用火山embedding模型
windows·python·embedding
shughui1 小时前
Android SDK 下载、安装与配置(详细图文附安装包,适配Appium+Python自动化)
android·python·appium·android-studio·android sdk
天天爱吃肉82181 小时前
交叉表格与卡方检验:新能源汽车研发测试中的分类变量关联性分析实战
人工智能·python·嵌入式硬件·机器学习·分类·数据挖掘·汽车
山后太阳1 小时前
如何进行量化类型的实操判断?
python
张彦峰ZYF1 小时前
Java+Python双语言开发AI工具全景分析与选型指南
java·人工智能·python