python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
爱笑的眼睛114 分钟前
强化学习组件:超越Hello World的架构级思考与实践
java·人工智能·python·ai
Boxsc_midnight19 分钟前
【规范驱动的开发方式】之【spec-kit】 的安装入门指南
人工智能·python·深度学习·软件工程·设计规范
条件漫步25 分钟前
Miniconda config channels的查看、删除、添加
python
爱笑的眼睛1128 分钟前
深入解析PyTorch nn模块:超越基础模型构建的高级技巧与实践
java·人工智能·python·ai
2401_8414956436 分钟前
【自然语言处理】自然语言理解:从技术基础到多元应用的全景探索
人工智能·python·自然语言处理·语音助手·翻译工具·自然语言理解·企业服务
嫂子的姐夫1 小时前
004-MD5_易车网
爬虫·python·逆向·加密
gf13211111 小时前
python_基于主视频删减片段并插入镜头视频
linux·python·音视频
八年。。1 小时前
Python 版本确认方法
开发语言·笔记·python
裤裤兔2 小时前
Python打印输出换行
开发语言·python
Batac_蝠猫2 小时前
Mac 真人手势识别切水果游戏
python·opencv·计算机视觉