python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
XW01059994 分钟前
4-10大公约数和最小公倍数
python·gcd·lcm
Cxiaomu8 分钟前
Python 文件解析: Excel / Word / PDF 的解析、处理、预览与下载
python·word·excel
啊阿狸不会拉杆18 分钟前
《计算机视觉:模型、学习和推理》第 10 章-图模型
人工智能·python·学习·机器学习·计算机视觉·图模型
测试老哥20 分钟前
如何使用Postman做接口测试?
自动化测试·软件测试·python·测试工具·测试用例·接口测试·postman
七夜zippoe28 分钟前
安全测试实战:OWASP Top 10全面防护指南
python·sql·xss·安全测试·安全框架·核心漏洞
Loo国昌42 分钟前
【AI应用开发实战】Guardrail风险控制中间件:Agent系统的安全防线
人工智能·python·安全·自然语言处理·中间件·prompt
苡~1 小时前
【openclaw+claude系列02】全景拆解——手机、电脑、AI 三者如何协同工作
java·人工智能·python·智能手机·电脑·ai编程
chao_7891 小时前
构建start_app.sh,实现快速启动项目
python·bash·终端·前后端
得一录1 小时前
AI Agent的主流设计模式之规划模式
人工智能·python·深度学习
weixin_440401691 小时前
Python数据分析-数据可视化(转置+折线图plot+柱状图bar+饼图pie)
python·信息可视化·数据分析