技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
-杨豫
几秒前
ZLibrary反爬破解实战:从验证码到加密全突破
python
2301_81841901
17 分钟前
Python内存管理机制:垃圾回收与引用计数
jvm·数据库·python
qq_41769505
20 分钟前
构建一个桌面版的天气预报应用
jvm·数据库·python
cm654320
21 分钟前
Python在金融科技(FinTech)中的应用
jvm·数据库·python
小陈的进阶之路
24 分钟前
Selenium 常用操作 API
python·自动化·pytest
2301_81665122
27 分钟前
如何从Python初学者进阶为专家?
jvm·数据库·python
2501_91812691
38 分钟前
学习所有python写服务器的语句
服务器·人工智能·python·学习·个人开发
m0_56988147
44 分钟前
使用Python自动收发邮件
jvm·数据库·python
极光代码工作室
1 小时前
基于机器学习的房价预测系统设计与实现
人工智能·python·深度学习·机器学习
weixin_42192269
1 小时前
使用Python进行图像识别:CNN卷积神经网络实战
jvm·数据库·python
热门推荐
01GitHub 镜像站点02Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南03围棋-html版本04小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)05班级宠物园部署指南06OpenClaw 使用和管理 MCP 完全指南07AI 编程三剑客:Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南08OpenClaw Control UI安全上下文访问配置09UV安装并设置国内源10“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)