python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
molunnnn1 分钟前
第四章 Agent的几种经典范式
开发语言·python
linuxxx1101 小时前
django测试缓存命令的解读
python·缓存·django
毕设源码-邱学长3 小时前
【开题答辩全过程】以 基于Python的Bilibili平台数据分析与可视化实现为例,包含答辩的问题和答案
开发语言·python·数据分析
咚咚王者3 小时前
人工智能之编程进阶 Python高级:第十一章 过渡项目
开发语言·人工智能·python
A尘埃4 小时前
大模型应用python+Java后端+Vue前端的整合
java·前端·python
A尘埃4 小时前
LLM大模型评估攻略
开发语言·python
一晌小贪欢4 小时前
【Python办公】处理 CSV和Excel 文件操作指南
开发语言·python·excel·excel操作·python办公·csv操作
檀越剑指大厂5 小时前
【Python系列】fastapi和flask中的阻塞问题
python·flask·fastapi
YoungHong19926 小时前
【Python进阶】告别繁琐Debug!Loguru一键输出异常日志与变量值
python·debug·异常处理·日志·loguru·log·logger