技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
威联通网络存储
1 小时前
告别掉帧与素材损毁:威联通 QuTS hero 如何重塑影视后期协同工作流
前端·网络·人工智能·python
Dxy1239310216
1 小时前
Python 根据列表中某字段排序:从基础到进阶
开发语言·windows·python
splage
1 小时前
Java进阶——IO 流
java·开发语言·python
cliffordl
1 小时前
设计模式(python)
python·设计模式
always_TT
2 小时前
从Python_Java转学C语言需要注意什么?
java·c语言·python
2301_79380469
2 小时前
定时任务专家:Python Schedule库使用指南
jvm·数据库·python
穿越世纪的风尘
3 小时前
【问题解决】No module named ‘_sqlite3‘
python·centos
qq_41601872
3 小时前
用Python批量处理Excel和CSV文件
jvm·数据库·python
蓝天守卫者联盟1
4 小时前
2026乙酸乙酯回收设备厂家选型与技术实践
java·jvm·python·算法
在屏幕前出油
4 小时前
06. FastAPI——中间件
后端·python·中间件·pycharm·fastapi
热门推荐
012026年3月AI领域大事件:DeepSeek引领开源风暴02GitHub 镜像站点03围棋-html版本04小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)05班级宠物园部署指南06【计算机一级WPSoffice】小黑课堂题库软件下载安装教程(2026年3月最新版)07UV安装并设置国内源08OpenClaw 使用和管理 MCP 完全指南09Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南10“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)