技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
徐先生 @_@|||
21 分钟前
Palantir Foundry 五层架构模型详解
开发语言·python·深度学习·算法·机器学习·架构
深蓝电商API
1 小时前
Scrapy爬虫限速与并发控制最佳实践
爬虫·python·scrapy
Derrick__1
1 小时前
淘宝MD5爬虫
爬虫·python
薛定谔的猫1982
1 小时前
llama-index Embedding 落地到 RAG 系统
开发语言·人工智能·python·llama-index
nimadan12
3 小时前
**手机小说扫榜工具2025推荐,精准追踪榜单动态与题材风向
python·智能手机
编程武士
3 小时前
Python 各版本主要变化速览
开发语言·python
傻啦嘿哟
3 小时前
Python中的@property:优雅控制类成员访问的魔法
前端·数据库·python
sky1720
4 小时前
VectorStoreRetriever 三种搜索类型
python·langchain
旦莫
4 小时前
Python测试开发工具库:日志脱敏工具(敏感信息自动屏蔽)
python·测试开发·自动化·ai测试
唐叔在学习
4 小时前
Python自动化指令进阶:UAC提权
后端·python
热门推荐
01GitHub 镜像站点02Linux下V2Ray安装配置指南03网站改了域名,如何查找?04Labelme从安装到标注:零基础完整指南05AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南06Claude Code Skills 实用使用手册07UV安装并设置国内源08百度网盘偷偷给电脑“降频”?09安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)10MC.JS:基于Web技术的网页版《我的世界》,免安装在线畅玩,支持存档