python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
Justinyh2 分钟前
Notion同步到CSDN + 构建Obsidian本地博客系统指南
python·csdn·图床·notion·obsidian·文档同步·piclist
D***y20118 分钟前
【Python】网络爬虫——词云wordcloud详细教程,爬取豆瓣最新评论并生成各式词云
爬虫·python·信息可视化
后台开发者Ethan28 分钟前
py文件被初始化执行了2次
python
a31582380629 分钟前
Linux部署Python Django工程和Node工程,使用宝塔面板
linux·服务器·python·django·node·strapi·宝塔面板
B站计算机毕业设计之家31 分钟前
机器学习:python智能电商推荐平台 大数据 spark(Django后端+Vue3前端+协同过滤 毕业设计/实战 源码)✅
大数据·python·spark·django·推荐算法·电商
豪哥大爷35 分钟前
Python datetime模块全面指南
python
dagouaofei36 分钟前
年终总结PPT用AI最快生成
人工智能·python·powerpoint
、、、、南山小雨、、、、37 分钟前
云主机GPU pyTorch部署
人工智能·pytorch·python
n***44338 分钟前
Java进阶:IO大全
java·开发语言·python
散峰而望38 分钟前
AI 知识科普
人工智能·python·深度学习·机器学习·计算机视觉