技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
科研鬼才(bushi
12 小时前
项目文件夹规范
python
程序员:钧念
13 小时前
深度学习与大语言模型LLM的区别
人工智能·python·深度学习·语言模型·自然语言处理·transformer·agent
深蓝电商API
13 小时前
Scrapy Feed Exports 进阶:多种格式导出配置
爬虫·python·scrapy
JAVA+C语言
13 小时前
如何在Java中实现线程间的通信?
java·大数据·python
移远通信
13 小时前
短信的应用
java·git·python
a努力。
13 小时前
阿里Java面试被问:WebSocket的心跳检测和自动重连实现
java·开发语言·python·websocket·面试·职场和发展·哈希算法
冷雨夜中漫步
13 小时前
Python入门——__init__.py文件作用
android·java·python
Volunteer Technology
13 小时前
Centos7安装python和jupyter
linux·python·jupyter
@zulnger
13 小时前
Django 模型
后端·python·django
huwei853
13 小时前
python设计通用表格类 带右键菜单
开发语言·windows·python
热门推荐
01GitHub 镜像站点022025 Telegram 最新免费社工库机器人(LetsTG可[特殊字符])搭建指南(含 Python 脚本)03OpenCode 入门教程:介绍 · 安装 · 配置第三方 API (如 Claude)04UV安装并设置国内源05AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南06Linux下V2Ray安装配置指南07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)08Claude Code Skills 实用使用手册09Labelme从安装到标注:零基础完整指南10BongoCat - 跨平台键盘猫动画工具