python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
ningdisheng几秒前
Python用图片生成banner.txt文件
python
0wioiw08 分钟前
Python基础(吃洋葱小游戏)
开发语言·python·pygame
蓝婷儿12 分钟前
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比(逻辑回归 vs 决策树)
python·数据分析·逻辑回归
栗子~~16 分钟前
Python实战- Milvus 向量库 使用相关方法demo
开发语言·python·milvus
狐凄18 分钟前
Python实例题:基于 Flask 的在线聊天系统
开发语言·python
狐凄18 分钟前
Python实例题:基于 Flask 的任务管理系统
开发语言·python
JavaEdge在掘金28 分钟前
cursor 1.2发布!Agent规划、更好上下文支持 & 更快的 Tab 补全!
python
巴里巴气1 小时前
Python爬虫用Clash软件设置代理IP
爬虫·python·tcp/ip
Whoisshutiao1 小时前
Python网安-zip文件暴力破解(仅供学习)
开发语言·python·网络安全
龙潜月七2 小时前
Selenium 自动化测试中跳过机器人验证的完整指南:能用
python·selenium·机器人