技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
金銀銅鐵
7 小时前
[Python] 扩展欧几里得算法
python·数学·算法
Duckdblab
8 小时前
DuckDB 性能调优终极指南:打造闪电般的分析体验
python
带派擂总
8 小时前
Python全栈开发精华版最全合集(包含各种面试题) Day24_异常和错误
python
金銀銅鐵
11 小时前
n^5 和 n 的个位数是否总相等?
python·数学
aqi00
15 小时前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
金銀銅鐵
15 小时前
借助 Pygame 探索最大公约数的规律
python·数学·游戏
ServBay
1 天前
9 个 Python 第三方库推荐,不用 AI 都好像多出一个团队
后端·python
用户835629078051
1 天前
如何使用 Python 添加和管理 Excel 批注(完整示例)
后端·python
用户835629078051
1 天前
使用 Python 管理 Excel 工作表:创建、复制、删除与重命名
后端·python
热门推荐
012026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?022026年6月AI行业全景:从百模大战到Agent元年,这30天发生了什么?032026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf04飞书长连接_事件订阅(接收消息,审批任务状态变更)05Trae国际版与国内版深度测评:AI原生IDE的双生花06GitHub 镜像站点07【AI】2026 年具身智能模型和世界模型总结08Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析092026年AI架构实战:彻底解决OpenAI接口超时与封号,Python调用GPT-5.2/Sora2企业级架构详解(附源码+压测报告)10【AI总结】2026年6月 主流国内外大模型总结