技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
科研鬼才(bushi
8 分钟前
项目文件夹规范
python
程序员:钧念
17 分钟前
深度学习与大语言模型LLM的区别
人工智能·python·深度学习·语言模型·自然语言处理·transformer·agent
深蓝电商API
19 分钟前
Scrapy Feed Exports 进阶:多种格式导出配置
爬虫·python·scrapy
JAVA+C语言
31 分钟前
如何在Java中实现线程间的通信?
java·大数据·python
移远通信
33 分钟前
短信的应用
java·git·python
a努力。
34 分钟前
阿里Java面试被问:WebSocket的心跳检测和自动重连实现
java·开发语言·python·websocket·面试·职场和发展·哈希算法
冷雨夜中漫步
34 分钟前
Python入门——__init__.py文件作用
android·java·python
Volunteer Technology
34 分钟前
Centos7安装python和jupyter
linux·python·jupyter
@zulnger
1 小时前
Django 模型
后端·python·django
huwei853
1 小时前
python设计通用表格类 带右键菜单
开发语言·windows·python
热门推荐
01GitHub 镜像站点022025 Telegram 最新免费社工库机器人(LetsTG可[特殊字符])搭建指南(含 Python 脚本)03OpenCode 入门教程:介绍 · 安装 · 配置第三方 API (如 Claude)04Linux下V2Ray安装配置指南05UV安装并设置国内源06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)07BongoCat - 跨平台键盘猫动画工具082025年大语言模型技术全景报告09Claude Code Skills 实用使用手册10Labelme从安装到标注:零基础完整指南