技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
田里的水稻
7 分钟前
ubuntu22.04_构建openclaw开发框架
运维·人工智能·python
萧曵 丶
11 分钟前
LangChain Model IO 提示词模版(Python版)
开发语言·python·langchain
zhojiew
21 分钟前
为agent实现渐进式Skills能力的思考和实践
linux·python·算法
huan199110
41 分钟前
Python使用PyMySQL操作MySQL完整指南
数据库·python·mysql
zyq99101_1
1 小时前
Python日期处理实战代码
python·算法·蓝桥杯
24kHT
1 小时前
tensorboard——SummaryWriter
python
高洁01
1 小时前
数据可视化实战:用AI工具制作专业数据分析图表
人工智能·python·深度学习·信息可视化·transformer
夏星印
2 小时前
argparse解析器参数详解
经验分享·笔记·python·学习·argparse
鬓戈
2 小时前
SeaweedFS集群上文件遍历和删除
运维·python
困死,根本不会
4 小时前
蓝桥杯python备赛笔记之(十)数论基础 & 日期问题
笔记·python·蓝桥杯
热门推荐
01GitHub 镜像站点02Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南03OpenClaw 使用和管理 MCP 完全指南04OpenClaw macOS 完整安装与本地模型配置教程(实战版)05本地部署 OpenClaw + DeepSeek-R1 完全指南06UV安装并设置国内源07OpenClaw 飞书机器人不回复消息?3 小时踩坑总结08Openclow安装保姆级教程09得物前端部门,没了10“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)