python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
AI周红伟21 小时前
周红伟:智能体实战,通过使用 Flask 的 REST API 在 Python 中部署 PyTorch
后端·python·flask
清水白石00821 小时前
Python 性能分析实战指南:timeit、cProfile、line_profiler 从入门到精通
开发语言·python
ValhallaCoder21 小时前
hot100-二分查找
数据结构·python·算法·二分查找
Suryxin.21 小时前
从0开始复现nano-vllm「llm_engine.py」
人工智能·python·深度学习·ai·vllm
PieroPc21 小时前
用python 写的 Gitee 数据备份工具
开发语言·python·gitee
电饭叔21 小时前
intVar 说明
python
癫狂的兔子21 小时前
【Python】【机器学习】十大算法简介与应用
python·算法·机器学习
ZaneAI21 小时前
🚀 Claude Agent SDK 使用指南:概述
python·agent·claude
闻哥1 天前
Java虚拟机内存结构深度解析:从底层原理到实战调优
java·开发语言·jvm·python·面试·springboot
@––––––1 天前
力扣hot100—系列6-栈
linux·python·leetcode