python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
醒了就刷牙8 分钟前
Hugging_Face实战
python
Volunteer Technology8 分钟前
LangGraph的Agent的上下文
人工智能·后端·python·langchain
luoluoal14 分钟前
基于python的医疗知识图谱问答系统(源码+文档)
python·mysql·django·毕业设计·源码
小比特_蓝光17 分钟前
STL小知识点——C++
java·开发语言·c++·python
I'm Jie21 分钟前
【已解决】SqlAlchemy 插入 MySQL JSON 字段时 None 变为 ‘null‘ 字符串,WHERE IS NULL 失效
数据库·python·mysql·json·fastapi·sqlalchemy
郝学胜-神的一滴37 分钟前
Python中的Dict子类:优雅扩展字典的无限可能
开发语言·python
二十雨辰42 分钟前
[python]-面向对象高级
python
向量引擎小橙1 小时前
从“对话助手”到“数字架构师”:Claude 4.6 Opus 如何凭一己之力,终结全球程序员的“CRUD 焦虑”?
人工智能·python·gpt·深度学习
小鸡吃米…1 小时前
TensorFlow - 单层感知机
人工智能·python·tensorflow
康小庄1 小时前
Java读写锁降级
java·开发语言·spring boot·python·spring·java-ee