python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
Loo国昌15 分钟前
【AI应用开发实战】04_混合检索器:BM25+向量+可靠度融合实战
人工智能·后端·python·自然语言处理
belldeep18 分钟前
python:用 Flask 3 , mistune 2 实现指定目录下 Md 文件的渲染
python·flask·markdown·mistune
52Hz11818 分钟前
力扣33.搜索旋转排序数组、153.寻找排序数组中的最小值
python·算法·leetcode
月下雨(Moonlit Rain)25 分钟前
宇宙飞船游戏项目
python·游戏·pygame
清水白石00827 分钟前
测试金字塔实战:单元测试、集成测试与E2E测试的边界与平衡
python·单元测试·log4j·集成测试
布局呆星27 分钟前
Python 入门:FastAPI + SQLite3 + Requests 基础教学
python·sqlite·fastapi
先做个垃圾出来………28 分钟前
Flask框架特点对比
后端·python·flask
Mr -老鬼33 分钟前
RustSalvo框架上传文件接口(带参数)400错误解决方案
java·前端·python
海天一色y37 分钟前
使用 Python + Tkinter 打造“猫狗大战“回合制策略游戏
开发语言·python·游戏
好奇心害死薛猫40 分钟前
全网首发_api方式flashvsr批量视频高清增强修复教程
python·ai·音视频