技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
查古穆
33 分钟前
python进阶-Pydantic模型
开发语言·python
佳木逢钺
1 小时前
PyQt界面美化系统高级工具库:打造现代化桌面应用的完整指南
python·pyqt
工頁光軍
1 小时前
基于Python的Milvus完整使用案例
开发语言·python·milvus
Csvn
1 小时前
特殊方法与运算符重载
python
xht0832
2 小时前
PHP vs Python:编程语言终极对决
开发语言·python·php
2401_87969387
2 小时前
使用Python控制Arduino或树莓派
jvm·数据库·python
查古穆
2 小时前
python进阶-推导式
开发语言·python
☆566
2 小时前
如何为开源Python项目做贡献?
jvm·数据库·python
m0_56039647
3 小时前
使用Python进行PDF文件的处理与操作
jvm·数据库·python
热门推荐
01GitHub 镜像站点02Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南03围棋-html版本04小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)05班级宠物园部署指南06OpenClaw 使用和管理 MCP 完全指南07UV安装并设置国内源08“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)09OpenClaw Control UI安全上下文访问配置10让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX :mcp-documents-reader 工具使用指南