python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
zbhbbedp282793cl36 分钟前
如何在VSCode中安装Python扩展?
ide·vscode·python
Python私教3 小时前
Python 开发环境安装与配置全指南(2025版)
开发语言·python
百锦再3 小时前
第12章 测试编写
android·java·开发语言·python·rust·go·erlang
熠熠仔3 小时前
QGIS 3.34+ 网络分析基础数据自动化生成:从脚本到应用
python·数据分析
测试19983 小时前
Appium使用指南与自动化测试案例详解
自动化测试·软件测试·python·测试工具·职场和发展·appium·测试用例
神仙别闹3 小时前
基于 C++和 Python 实现计算机视觉
c++·python·计算机视觉
hongjianMa4 小时前
【论文阅读】Hypercomplex Prompt-aware Multimodal Recommendation
论文阅读·python·深度学习·机器学习·prompt·推荐系统
饼干,5 小时前
第23天python内容
开发语言·python
酷柚易汛智推官5 小时前
基于librespot的定制化Spotify客户端开发:开源替代方案的技术实践与优化
python·开源·酷柚易汛
雪碧聊技术5 小时前
requests入门
python·requests·请求头的user-agent