技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
紫金修道
2 小时前
【DeepAgent】概述
开发语言·数据库·python
书到用时方恨少!
2 小时前
Python multiprocessing 使用指南:突破 GIL 束缚的并行计算利器
开发语言·python·并行·多进程
Warson_L
2 小时前
Python 常用内置标准库
python
Warson_L
3 小时前
Python 函数的艺术 (Functions)
python
Warson_L
3 小时前
Python 流程控制与逻辑
后端·python
long_songs
3 小时前
手柄键盘映射器【github链接见文末 】
python·游戏·计算机外设·pygame·软件推荐·手柄映射键盘
必然秃头
3 小时前
Python 环境安装及项目构建指南
python
Warson_L
3 小时前
Python 四大组合数据类型 (Collection Types)
后端·python
廋到被风吹走
3 小时前
【AI】Codex 多语言实测:Python/Java/JS/SQL 效果横评
java·人工智能·python
Warson_L
3 小时前
Python 数据类型核心笔记
python
热门推荐
01GitHub 镜像站点022026年3月AI领域大事件:DeepSeek引领开源风暴03Qwen3.5-Omni与Qwen3.6模型全面解析(含测评/案例/使用教程)04Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services05UV安装并设置国内源06如何解决 OpenClaw “Pairing required” 报错:两种官方解决方案详解07让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX :mcp-documents-reader 工具使用指南08深扒 Claude Code Buddy 模式:一只仙人掌背后的确定性随机算法09AI 编程效率翻倍:Superpowers Skills 上手清单 + 完整指南10“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)