python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
xufengzhu1 小时前
Python库PyMySQL的使用指南
开发语言·python·pip
世辰辰辰9 小时前
批量修改图片/文本名子
开发语言·python·批量修改文件名
myenjoy_111 小时前
MQTT 与 Sparkplug B——从车间到云端的最后一公里
网络·python
颜酱12 小时前
LangChain 输出解析器:把模型回复变成你要的数据
python·langchain
2401_8734794012 小时前
企业安全运营中,如何用IP离线库提前发现失陷主机?三步实现风险画像
网络·数据库·python·tcp/ip·ip
weixin_5231853213 小时前
Java基础知识总结(四):引用数据类型与参数传递机制
java·开发语言·python
码农飞哥13 小时前
我把RAG召回率从60%提到90%,就改了这两件事
python·知识库·向量检索·rag·效果提示
宸津-代码粉碎机13 小时前
Spring AI企业级实战|从RAG优化到Agent多工具调度
java·大数据·人工智能·后端·python·spring
yuhuofei202113 小时前
【Python入门】Python中的字典dict
python
Jinkxs14 小时前
Python基础 - 文件的写入操作 write与writelines方法
android·服务器·python