python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
高洁0114 分钟前
工程科研中的AI应用:结构力学分析技巧
python·深度学习·机器学习·数据挖掘·知识图谱
大邳草民29 分钟前
Python 爬虫:从 HTTP 请求到接口分析
笔记·爬虫·python
众创岛33 分钟前
Playwright 元素定位
python·自动化
艾派森36 分钟前
深度学习实战-基于EfficientNetB5的家禽鸡病图像分类识别模型
人工智能·python·深度学习·神经网络·分类
心静财富之门1 小时前
Django 超详细初级教程(零基础可学)
python·django
bucenggaibian1 小时前
Nearoh:9年开发者从零造语言,Python的简洁+C的性能
c语言·python·开发者·编程语言·nearoh
小小测试开发1 小时前
EasyOCR用法全攻略:Python开源OCR工具快速上手,图文识别零门槛
python·开源·ocr
用户23935610480581 小时前
DeepTutor源码安装与配置
python
EnCi Zheng1 小时前
04-缩放点积注意力代码实现 [特殊字符]
人工智能·pytorch·python
HuaCode1 小时前
OpenClaw 常用命令 FAQ
python·faq·openclaw