python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
Learn Beyond Limits20 小时前
Correlation vs Cosine vs Euclidean Distance|相关性vs余弦相似度vs欧氏距离
人工智能·python·神经网络·机器学习·ai·数据挖掘
专注于大数据技术栈20 小时前
java学习--==和equals
java·python·学习
testtraveler21 小时前
[Fix] ImportError: libtorch_cpu.so: undefined symbol: iJIT_NotifyEvent
pytorch·python·bug
lang2015092821 小时前
Kafka延迟操作机制深度解析
分布式·python·kafka
测试老哥1 天前
软件测试:测试用例的设计
自动化测试·软件测试·python·功能测试·测试工具·职场和发展·测试用例
koo3641 天前
pytorch环境配置
人工智能·pytorch·python
程序员杰哥1 天前
Python自动化测试之线上流量回放:录制、打标、压测与平台选择
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·压力测试
吴佳浩1 天前
LangChain v1 重大更新讲解⚠⚠⚠
python·langchain·agent
顾安r1 天前
11.20 开源APP
服务器·前端·javascript·python·css3
萧鼎1 天前
Python PyTesseract OCR :从基础到项目实战
开发语言·python·ocr