技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
Esaka_Forever
13 分钟前
Python 完整内存管理机制详解
开发语言·python·spring
Weigang
44 分钟前
用 LlamaIndex 做 RAG 前,先把 Reader、Index、Retriever 的边界写清楚
人工智能·python·开源
小九九的爸爸
1 小时前
前端入门Agent开发,掌握这些Python数据基础就够啦
python·agent
风之所往_
1 小时前
Python 3.9 新特性全面总结
python
W是笔名
1 小时前
python___容器类型的数据___序列
开发语言·python
aqi00
1 小时前
15天学会AI应用开发(十一)从TXT文件构建RAG知识库
人工智能·python·大模型·ai编程·ai应用
火星校尉
1 小时前
一场数据基建与消费场景的跨界实验
java·前端·数据库·python·php
Sam0927
1 小时前
【AI 算法精讲 14】TF-IDF:词频与逆文档频率
人工智能·python·算法·ai
W是笔名
2 小时前
python_let`s try it 6___BMI计算器
java·前端·python
热门推荐
012026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf02GitHub 镜像站点03AI科技热点日报 | 2026年07月01日04【AI】2026 年具身智能模型和世界模型总结052026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?062026 年 AI 大模型 & AI 编程工具实战全总结072026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?08Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析09Agnes AI 免费 API 接入指南:文本、生图、生视频,一套接口全免费102026 AI 编程工具选型横评:Cursor / Claude Code / Trae / Copilot 到底选谁(建议收藏·避坑版)