技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
DeepModel
12 小时前
【概率分布】指数分布(Exponential Distribution)原理、推导与实战
python·算法·概率论
波特率115200
12 小时前
miniconda入门使用
python·conda·miniconda·python环境
二闹
12 小时前
别再死记硬背了!带你扒开*args和**kwargs的底裤
后端·python
m0_74329742
13 小时前
Python在金融科技(FinTech)中的应用
jvm·数据库·python
老师好,我是刘同学
13 小时前
列表推导式详解与实战应用
python
与虾牵手
13 小时前
Rust 入门:一个写了 6 年 Python 的人,被编译器骂了三天
python
2401_85786523
13 小时前
Python日志记录(Logging)最佳实践
jvm·数据库·python
AsDuang
13 小时前
Python 3.12 MagicMethods - 54 - __rrshift__
开发语言·python
Bert.Cai
13 小时前
Python字符串详解
开发语言·python
宸翰
13 小时前
在VS code中如何舒适的开发Python
前端·python
热门推荐
01GitHub 镜像站点02Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南03OpenClaw 使用和管理 MCP 完全指南04UV安装并设置国内源05OpenClaw Control UI安全上下文访问配置06小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)07Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services08OpenClaw macOS 完整安装与本地模型配置教程(实战版)09本地部署 OpenClaw + DeepSeek-R1 完全指南10AI 编程三剑客:Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南