python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
二川bro6 分钟前
字符串特性解析:Python不可变性引发的错误
android·开发语言·python
呆萌小新@渊洁15 分钟前
声纹模型全流程实践-开发(训练 - 微调 - 部署 - 调用)
linux·服务器·python·语音识别
Aspect of twilight32 分钟前
vscode python debug方式
ide·vscode·python·debug
陪我一起学编程43 分钟前
uv包管理工具
python·uv·虚拟环境·包管理工具·项目工程化·项目规范·pip、conda、pdm
盼哥PyAI实验室43 分钟前
Python自定义HTTP客户端:12306抢票项目的网络请求管理
开发语言·python·http
这儿有一堆花1 小时前
Python优化内存占用的技巧
开发语言·python
爱笑的眼睛111 小时前
PyTorch自动微分:超越基础,深入动态计算图与工程实践
java·人工智能·python·ai
Daily Mirror1 小时前
Day33 类的装饰器
python
web3.08889992 小时前
震坤行商品详情数据接口可以用于获取商品详情信息
python·计算机网络
Salt_07282 小时前
DAY32 类的定义和方法
开发语言·python·算法·机器学习