python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
talenteddriver10 分钟前
web: jwt令牌构成、创建的基本流程及原理
java·开发语言·python·网络协议·web
小北方城市网12 分钟前
解析GEO:定义、价值与忽视的代价
python·ai·geo
胡伯来了35 分钟前
08 - 数据收集 - 网页采集工具Selenium
爬虫·python·selenium·rag·网络采集
沃斯堡&蓝鸟37 分钟前
DAY31 函数专题2:装饰器
python
ss27337 分钟前
Executors预定义线程池-正确使用姿势
linux·开发语言·python
七夜zippoe37 分钟前
Python高级数据结构深度解析:从collections模块到内存优化实战
开发语言·数据结构·python·collections·内存视图
叶子20242240 分钟前
骨架点xy与 骨架点yx排序对比
python
yj15582 小时前
新房子装修好不能直接入住的原因有哪些?
python
luoluoal2 小时前
基于python的病人信息管理系统及安全策略分析(源码+文档)
python·mysql·django·毕业设计·源码
cnxy1889 小时前
围棋对弈Python程序开发完整指南:步骤1 - 棋盘基础框架搭建
开发语言·python