技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
不知名的老吴
17 小时前
返回多个值:让函数输出更丰富又不复杂
开发语言·python
larance
17 小时前
python包 解压修改后重新打成whl 包
开发语言·python
萤火阳光
18 小时前
43|Python 异步生态深度:aiohttp/aiomysql/aioredis 全链路异步实战
开发语言·网络·python
威联通安全存储
18 小时前
云原生数据湖:QuObjects 本地 S3 对象存储解析
python·云原生
chushiyunen
18 小时前
大模型评测、质量保证、datasets数据集、LmEval工具
开发语言·python
新知图书
18 小时前
【图书推荐】《Python大数据分析师的算法手册》
python·数据分析
apcipot_rain
18 小时前
Python 脚本生成目录树
开发语言·python
港股研究社
19 小时前
广汽年报里的隐线:组织改革、生态协同与修复起点
python
Sirius.z
19 小时前
第T11周:优化器对比实验
python
loriloy
19 小时前
Python 环境管理工具 pyenv-win (windows版本)
windows·python·pyenv-win
热门推荐
01GitHub 镜像站点02Qwen3.5-Omni与Qwen3.6模型全面解析(含测评/案例/使用教程)032026年3月AI领域大事件:DeepSeek引领开源风暴04Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services05Mac 本地部署 OMLX + 通义千问 Qwen3.5-27B 保姆级教程06黄金未来走势预测07UV安装并设置国内源08纯 HTML/CSS/JS 实现的高颜值登录页,还会眨眼睛!少女心爆棚!09VMware Workstation Pro 17 虚拟机完整安装教程(2026最新)10AI 编程效率翻倍:Superpowers Skills 上手清单 + 完整指南