python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
徐先生 @_@|||10 分钟前
时间序列异常检测框架CrossAD论文阅读
经验分享·python·机器学习
weixin_3954489127 分钟前
build_fsd_luyan_from_rm.py-cursor0225
开发语言·python
先做个垃圾出来………27 分钟前
Python常见文件操作
linux·数据库·python
电化学仪器白超30 分钟前
EC20CEHDLG-128-SNNS调试记录
python·单片机·嵌入式硬件·自动化
极客小张30 分钟前
基于STM32的智能水质监测与远程预警系统设计与实现
c语言·python·stm32·单片机·嵌入式硬件·物联网
Volunteer Technology32 分钟前
JVM之性能优化
jvm·python·性能优化
Qy_cm43 分钟前
DAY0:3个基础概念——参数、梯度、训练的本质
python
云司科技codebuddy1 小时前
技术支持过硬Trae核心代理
大数据·运维·python·微服务
A懿轩A1 小时前
【2026 最新】TensorFlow 安装配置详细指南 同时讲解安装CPU和GPU版本 小白也能轻松上手!逐步带图超详细展示(Windows 版)
人工智能·windows·python·深度学习·tensorflow
qq_432642021 小时前
上传模型/数据集到huggingface
python