python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
星期天要睡觉3 分钟前
深度学习——基于 ResNet18 的图像分类训练
pytorch·python·机器学习
林炳然4 分钟前
Python-Basic Day-1 基本元素(数字、字符串)
python
weixin_307779136 分钟前
在Linux服务器上使用Jenkins和Poetry实现Python项目自动化
linux·开发语言·python·自动化·jenkins
今天没有盐8 分钟前
内置基础类型之布尔值类型(bool)与时间与日期类型
python·编程语言
Empty_77711 分钟前
Python编程之常用模块
开发语言·网络·python
Q_Q51100828536 分钟前
python+uniapp基于微信小程序的学院设备报修系统
spring boot·python·微信小程序·django·flask·uni-app
蓝色空白的博客1 小时前
自动化测试脚本-->集成测试部署思路整理(1)
python·集成测试
Blossom.1181 小时前
把AI“绣”进丝绸:生成式刺绣神经网络让古装自带摄像头
人工智能·pytorch·python·深度学习·神经网络·机器学习·fpga开发
星星也在雾里2 小时前
【管理多版本Python环境】Anaconda安装及使用
python·anaconda
用户3721574261352 小时前
使用 Python 将 CSV 文件转换为 PDF 的实践指南
python