python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
铁手飞鹰13 小时前
[深度学习]常用的库与操作
人工智能·pytorch·python·深度学习·numpy·scikit-learn·matplotlib
小猪咪piggy14 小时前
【Python】(6) 文件操作
开发语言·python
BYSJMG14 小时前
计算机毕设推荐:基于大数据的共享单车数据可视化分析
大数据·后端·python·信息可视化·数据分析·课程设计
JMchen12314 小时前
AI编程范式转移:深度解析人机协同编码的实战进阶与未来架构
人工智能·经验分享·python·深度学习·架构·pycharm·ai编程
执风挽^14 小时前
Python_func_basic
开发语言·python·算法·visual studio code
jiang_changsheng14 小时前
工作流agent汇总分析 2
java·人工智能·git·python·机器学习·github·语音识别
star125814 小时前
数据分析与科学计算
jvm·数据库·python
HetFrame14 小时前
大模型驱动的禅道任务自动化规划与创建
python·ai·自动化·大模型·ai编程·任务·禅道
2301_8223827614 小时前
使用Python进行网络设备自动配置
jvm·数据库·python
2501_9419820514 小时前
AI + 企微:使用 Python 接入 DeepSeek/GPT 实现外部群自动技术答疑
人工智能·python·企业微信