技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
航行的pig
7 小时前
Python基础学习笔记
笔记·python
Smilecoc
7 小时前
ChromeDriverManager:自动下载和管理chromedriver版本
开发语言·python
0思必得0
7 小时前
[Web自动化] Selenium元素定位
前端·python·selenium·自动化·html
weixin_41965831
7 小时前
UISpy:Windows 界面控件的“显微镜“[特殊字符]
windows·python·测试工具·ui
不如语冰
8 小时前
AI大模型入门1.1-python基础-数据结构
数据结构·人工智能·pytorch·python·cnn
知行合一。。。
8 小时前
Python--04--数据容器(列表 List)
开发语言·python
杰瑞哥哥
8 小时前
【时间序列与深度学习】(一)经济计量基础ARIMA模型
python·时间序列·金融工程
网安CILLE
8 小时前
Wireshark 抓包实战演示
linux·网络·python·测试工具·web安全·网络安全·wireshark
王夏奇
8 小时前
python中的基础知识点-1
开发语言·windows·python
热门推荐
01GitHub 镜像站点02OpenCode 入门教程:介绍 · 安装 · 配置第三方 API (如 Claude)032025 Telegram 最新免费社工库机器人(LetsTG可[特殊字符])搭建指南(含 Python 脚本)04Linux下V2Ray安装配置指南05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)06AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南07UV安装并设置国内源08BongoCat - 跨平台键盘猫动画工具09Claude Code Skills 实用使用手册10网站改了域名,如何查找?