python 提取PDF文字

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
相关推荐
叫我:松哥4 分钟前
基于神经网络的汽车与自行车的分类算法设计与实现,采用ResNet50和迁移学习,准确率达到99%
人工智能·python·神经网络·机器学习·分类·汽车·迁移学习
靖待4 分钟前
【解决方法】python写Excel单元格截断长文本
python·excel·解决方法
우리帅杰7 分钟前
【AI测试】Python AI大模型介绍
开发语言·人工智能·python·ai编程
li-xun11 分钟前
我给自己的 Django 博客做了一个在线工具箱:从图片压缩到正则测试,尽量都在浏览器本地处理
后端·python·django
geovindu17 分钟前
python: Generators Pattern
开发语言·python·设计模式·生成器模式
没有不重的名么17 分钟前
spyder使用教程
开发语言·python
Wonderful U18 分钟前
Python+Django实战|线上问卷与投票调研系统:自定义题型、问卷发布、链接分享、答卷收集、数据可视化、报表导出
python·信息可视化·django
Cloud_Shy61827 分钟前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 36 - 39)
开发语言·人工智能·笔记·python
zmzb010328 分钟前
Python课后习题训练记录Day128
开发语言·python
AIFQuant29 分钟前
全球行情自动更新、多品种展示、性能优化实战指南
python·性能优化·金融·node.js·restful