python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
2301_807583231 分钟前
了解python,并编写第一个程序,常见的bug
linux·python
小白学大数据3 分钟前
构建混合爬虫:何时使用Requests,何时切换至Selenium处理请求头?
爬虫·python·selenium·测试工具
2401_827560207 分钟前
【Python脚本系列】PyAudio+librosa+dtw库录制、识别音频并实现点击(四)
python·语音识别
BBB努力学习程序设计26 分钟前
Python自动化脚本:告别重复劳动
python·pycharm
BBB努力学习程序设计33 分钟前
Python函数式编程:优雅的代码艺术
python·pycharm
2501_9409439138 分钟前
体系课\ Python Web全栈工程师
开发语言·前端·python
田姐姐tmner1 小时前
Python切片
开发语言·python
t***31651 小时前
爬虫学习案例3
爬虫·python·学习
AI小云2 小时前
【数据操作与可视化】Pandas数据处理-其他操作
python·pandas
大佬,救命!!!2 小时前
更换适配python版本直接进行机器学习深度学习等相关环境配置(非仿真环境)
人工智能·python·深度学习·机器学习·学习笔记·详细配置