python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
喵手6 分钟前
Python爬虫实战:房产数据采集实战 - 链家二手房&安居客租房多页爬虫完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·房产数据采集·链家二手房/安居客房源采集·采集结果sqlite导出
不懒不懒7 分钟前
【机器学习:下采样 VS 过采样——逻辑回归在信用卡欺诈检测中的实践】
python·numpy·scikit-learn·matplotlib·pip·futurewarning
Leinwin8 分钟前
Moltbot 部署至 Azure Web App 完整指南:从本地到云端的安全高效跃迁
后端·python·flask
叫我辉哥e113 分钟前
新手进阶Python:办公看板集成AI智能助手+语音交互+自动化问答
python
真智AI27 分钟前
用 FAISS 搭个轻量 RAG 问答(Python)
开发语言·python·faiss
2401_8576835428 分钟前
使用Kivy开发跨平台的移动应用
jvm·数据库·python
咩咩不吃草31 分钟前
【HTML】核心标签与【Python爬虫库】实战指南
css·爬虫·python·html
serve the people38 分钟前
python环境搭建 (七) pytest、pytest-asyncio、pytest-cov 试生态的核心组合
开发语言·python·pytest
java1234_小锋41 分钟前
分享一套不错的基于Python的Django宠物信息管理系统
开发语言·python·宠物
2401_8414956442 分钟前
【Web开发】基于Flask搭建简单的应用网站
后端·python·flask·视图函数·应用实例·路由装饰器·调试模式