python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
努力变大白1 分钟前
Python多指标综合评价及预测方法实战:CRITIC法+熵权法+TOPSIS+博弈论组合赋权综合评价预测全流程解析
开发语言·python
非自律懒癌患者6 分钟前
‘module1 is module2‘ VS ‘module1 == module2‘
python·深度学习·计算机视觉
郝学胜-神的一滴7 分钟前
李航《机器学习方法》全面解析与高效学习指南
人工智能·python·算法·机器学习·数学建模·scikit-learn
龙腾AI白云9 分钟前
深度学习—卷积神经网络(1)
python·深度学习·神经网络
雪花desu11 分钟前
【Hot100-Java简单】/LeetCode 283. 移动零:两种 Java 高效解法详解
数据结构·python·算法
蜡笔弄丢了小新16 分钟前
nohup java -jar 文件名
java·python·jar
一杯咖啡Miracle19 分钟前
UV管理python环境,打包项目为docker流程
python·算法·docker·容器·uv
Blossom.11822 分钟前
边缘智能新篇章:YOLOv8在树莓派5上的INT8量化部署全攻略
人工智能·python·深度学习·学习·yolo·react.js·transformer
2501_9444522327 分钟前
应用设置 Cordova 与 OpenHarmony 混合开发实战
python
灰太狼爱红太狼29 分钟前
2025睿抗机器人大赛智能侦查赛道省赛全流程
人工智能·python·目标检测·ubuntu·机器人