python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
次元工程师!37 分钟前
LangFlow开发(三)—Bundles组件架构设计(3W+字详细讲解)
java·前端·python·低代码·langflow
t_hj1 小时前
大模型微调
人工智能·python·深度学习
范范@2 小时前
python基础-函数
开发语言·python
2301_803934612 小时前
MySQL 字段类型选择规范指南
jvm·数据库·python
yaoxin5211233 小时前
406. Java 文件操作基础 - 字符与二进制流
java·开发语言·python
一勺菠萝丶3 小时前
macOS 安装 Python 包报错:`externally-managed-environment` 怎么解决?
python
醒李4 小时前
盲人出行辅助系统原型
人工智能·python·目标检测
PILIPALAPENG4 小时前
第4周 Day 3:多 Agent 协作——让 Agent 们"组队干活"
前端·人工智能·python
Omics Pro4 小时前
填补蛋白质组深度学习预处理教学空白
人工智能·python·深度学习·plotly·numpy·pandas·scikit-learn
万邦科技Lafite5 小时前
实战演练:利用京东API一键抓取商品详情
数据库·redis·python·缓存·开放api·淘宝开放平台