技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
做怪小疯子
17 小时前
华为笔试0429
python·numpy
Warson_L
18 小时前
Dictionary
python
寒山李白
20 小时前
解决 python-docx 生成的 Word 文档打开时弹出“无法读取内容“警告
python·word·wps·文档·docx·qoder
2401_83236552
20 小时前
JavaScript中rest参数(...args)取代arguments的优势
jvm·数据库·python
Sirius.z
20 小时前
第J3周:DenseNet121算法详解
python
2301_77962241
21 小时前
Go语言怎么用信号量控制并发_Go语言semaphore信号量教程【入门】
jvm·数据库·python
2301_76628344
21 小时前
c++如何将控制台输出保存到文件_cout重定向到txt【详解】
jvm·数据库·python
小康小小涵
1 天前
基于ESP32S3实现无人机RID模块底层源码编译
linux·开发语言·python
lzjava2024
1 天前
Python的函数
开发语言·python
Awesome Baron
1 天前
skill、tool calling、MCP区别
开发语言·人工智能·python
热门推荐
01要裂开了!ChatGPT要手机号验证了?注册Codex要求验证电话号码怎么办?2026年登陆Codex要手机号验证的解决办法02GitHub 镜像站点03【AI】2026 年具身智能模型和世界模型总结04Codex 接入 DeepSeek API 完整配置文档05裂开!ChatGPT 居然开始要手机号验证,附详细解决方法06零基础教你claude code 接入 deepseek V4072026年AI前瞻:量子AI、具身智能与科学发现的新纪元08实测可用|小米 MiMo 百万亿 Token 免费领,开发者速冲09在Windows 11上安装Docker的踩坑记录10CC-Switch & Claude 基于 Linux 服务器安装使用指南