python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
2501_944526421 小时前
Flutter for OpenHarmony 万能游戏库App实战 - 蜘蛛纸牌游戏实现
android·java·python·flutter·游戏
飞Link1 小时前
【Django】Django的静态文件相关配置与操作
后端·python·django
Ulyanov2 小时前
从桌面到云端:构建Web三维战场指挥系统
开发语言·前端·python·tkinter·pyvista·gui开发
CCPC不拿奖不改名3 小时前
两种完整的 Git 分支协作流程
大数据·人工智能·git·python·elasticsearch·搜索引擎·自然语言处理
a努力。3 小时前
字节Java面试被问:TCP的BBR拥塞控制算法原理
java·开发语言·python·tcp/ip·elasticsearch·面试·职场和发展
费弗里3 小时前
一个小技巧轻松提升Dash应用debug效率
python·dash
小小测试开发3 小时前
Python浮点型常用方法全解析:从基础到实战
python
ValhallaCoder3 小时前
Day53-图论
数据结构·python·算法·图论
lpfasd1234 小时前
PyGithub用法详解
git·python·github
给我来一根4 小时前
用户认证与授权:使用JWT保护你的API
jvm·数据库·python