技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
徐先生 @_@|||
19 小时前
Palantir Foundry 五层架构模型详解
开发语言·python·深度学习·算法·机器学习·架构
深蓝电商API
19 小时前
Scrapy爬虫限速与并发控制最佳实践
爬虫·python·scrapy
Derrick__1
19 小时前
淘宝MD5爬虫
爬虫·python
薛定谔的猫1982
19 小时前
llama-index Embedding 落地到 RAG 系统
开发语言·人工智能·python·llama-index
nimadan12
21 小时前
**手机小说扫榜工具2025推荐,精准追踪榜单动态与题材风向
python·智能手机
编程武士
21 小时前
Python 各版本主要变化速览
开发语言·python
傻啦嘿哟
21 小时前
Python中的@property:优雅控制类成员访问的魔法
前端·数据库·python
sky1720
1 天前
VectorStoreRetriever 三种搜索类型
python·langchain
旦莫
1 天前
Python测试开发工具库:日志脱敏工具(敏感信息自动屏蔽)
python·测试开发·自动化·ai测试
唐叔在学习
1 天前
Python自动化指令进阶:UAC提权
后端·python
热门推荐
01GitHub 镜像站点02Linux下V2Ray安装配置指南03Labelme从安装到标注:零基础完整指南04Claude Code Skills 实用使用手册05AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南06UV安装并设置国内源072025年大语言模型技术全景报告08网站改了域名,如何查找?09安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)10在VSCode配置Java开发环境的保姆级教程(适配各类AI编程IDE)