技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
两万五千个小时
2 小时前
落地实现 Anthropic Multi-Agent Research System
人工智能·python·架构
哈里谢顿
5 小时前
Python 高并发服务限流终极方案:从原理到生产落地(2026 实战指南)
python
用户835629078051
19 小时前
无需 Office:Python 批量转换 PPT 为图片
后端·python
markfeng8
21 小时前
Python+Django+H5+MySQL项目搭建
python·django
GinoWi
1 天前
Chapter 2 - Python中的变量和简单的数据类型
python
JordanHaidee
1 天前
Python 中 `if x:` 到底在判断什么?
后端·python
ServBay
1 天前
10分钟彻底终结冗长代码,Python f-string 让你重获编程自由
后端·python
闲云一鹤
1 天前
Python 入门(二)- 使用 FastAPI 快速生成后端 API 接口
python·fastapi
Rockbean
1 天前
用40行代码搭建自己的无服务器OCR
服务器·python·deepseek
曲幽
1 天前
FastAPI + Ollama 实战:搭一个能查天气的AI助手
python·ai·lora·torch·fastapi·web·model·ollama·weatherapi
热门推荐
01GitHub 镜像站点02【OpenClaw 本地实战 Ep.3】突破瓶颈:强制修改 openclaw.json 解锁 32k 上下文记忆03OpenClaw 使用和管理 MCP 完全指南04AI Agent 平台横评:ZeroClaw vs OpenClaw vs Nanobot05Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services06Clawdbot部署教程:解决‘gateway token missing’授权问题的完整步骤07AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南08Window 10部署openclaw报错node.exe : npm error code 12809让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX :mcp-documents-reader 工具使用指南10OpenClaw + 飞书(Feishu)环境搭建指南