技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
Warson_L
9 小时前
Python `Annotated` 与 LangGraph Reducer 学习笔记
python
韩师傅
9 小时前
海天线算法的前世今生
python·计算机视觉
韩师傅
9 小时前
当你的甲方设备过烂,要如何快速出效果?
python·计算机视觉
Warson_L
9 小时前
LangGraph的MessageState and HumanMessage
python
韩师傅
10 小时前
当你的甲方吐槽天空不够蓝,你应该如何应对
python·计算机视觉
Warson_L
11 小时前
python的类&继承
python
Warson_L
11 小时前
类型标注/type annotation
python
ThreeS
13 小时前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python
金銀銅鐵
14 小时前
[Python] 模 n 乘法的逆元计算器
python·数学·游戏
热门推荐
012026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?022026年6月AI行业全景:从百模大战到Agent元年,这30天发生了什么?03飞书长连接_事件订阅(接收消息,审批任务状态变更)04Trae国际版与国内版深度测评:AI原生IDE的双生花052026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf06GitHub 镜像站点07【AI】2026 年具身智能模型和世界模型总结08Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析092026年AI架构实战:彻底解决OpenAI接口超时与封号,Python调用GPT-5.2/Sora2企业级架构详解(附源码+压测报告)102026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?