python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
快乐江湖18 分钟前
「层层包装」—— 装饰器模式
开发语言·python·装饰器模式
m0_702036531 小时前
mysql如何通过索引减少行锁范围_mysql索引与加锁逻辑
jvm·数据库·python
用户0332126663671 小时前
使用 Python 设置 Word 文档文本的颜色
python
qxwlcsdn1 小时前
如何用 IndexedDB 存储从 API 获取的超大列表并实现二级索引
jvm·数据库·python
小新同学^O^2 小时前
简单学习 --> 模型微调
开发语言·人工智能·python·模型微淘
2301_809244532 小时前
C#怎么使用协变和逆变 C#泛型中的in和out关键字协变逆变是什么意思怎么用【语法】
jvm·数据库·python
知识汲取者2 小时前
巨量引擎营销 API 完整文档
开发语言·数据库·python
DevnullCoffe2 小时前
用 MCP 让 AI Agent 直接批量下载亚马逊商品图片——原理、踩坑与实现
爬虫·python·api
时光Autistic3 小时前
【安装教程】AI标注工具X-AnyLabeling安装配置
人工智能·python
knight_9___3 小时前
大模型project面试7
人工智能·python·算法·面试·大模型·agent