python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
Metaphor69213 小时前
使用 Python 加密或解密 Word 文档
python·安全·word
IT策士13 小时前
Python 中间件系列:文件存储minio操作操
开发语言·python·中间件
Ulyanov14 小时前
《从质点到位姿:基于Python与PyVista的导弹制导控制全栈仿真》: 驯服猛兽——自动驾驶仪(Autopilot)设计与舵机动力学
python·自动驾驶·雷达电子对抗
暗影八度14 小时前
OpenMetadata Python ingestion 开发环境搭建与运行文档
开发语言·python
清水白石00814 小时前
从“能装上”到“可复现”:Python 团队如何正确使用 requirements.txt、锁定文件与依赖分组
开发语言·人工智能·python
jiayong2314 小时前
Python面试题集 - 基础语法与核心概念
开发语言·windows·python
05候补工程师14 小时前
ROS 2 入门:从零实现小海龟 (Turtlesim) 的手动控制与自动化绘圆
运维·经验分享·python·ubuntu·机器人·自动化
凯瑟琳.奥古斯特14 小时前
Django Flask FastAPI 三者对比
开发语言·python·django·flask·fastapi
godspeed_lucip14 小时前
LLM和Agent——专题2: LLM as Judge 入门(2)
人工智能·python
jiayong2314 小时前
Python面试题集 - 数据结构与算法
开发语言·python