技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
Bellafu666
5 分钟前
本地搭建EXAM-MASTER考试系统
python
开心-开心急了
14 分钟前
Flask入门教程——李辉 第三章 关键知识梳理
后端·python·flask
rannn_111
1 小时前
【学以致用|python自动化办公】OCR批量识别自动存为Excel(批量识别发票)
python·ocr·excel·财务
AI视觉网奇
1 小时前
pycharm 默认终端设置 cmd
ide·python·pycharm
言之。
2 小时前
LiteLLM:让LLM调用变得简单统一
后端·python·flask
ZhengEnCi
2 小时前
Python_try-except-finally 完全指南-从异常处理到程序稳定的 Python 编程利器
后端·python
jarreyer
2 小时前
常见分析方法与对应图表汇总
python·信息可视化·数据分析
m0_64880493_江哥
2 小时前
用正则方法从中英文本提取英文的python示例
python·mysql·正则表达式
N0nename
2 小时前
TR3--Transformer之pytorch复现
人工智能·pytorch·python
Full Stack Developme
2 小时前
jdk.random 包详解
java·开发语言·python
热门推荐
01BongoCat - 跨平台键盘猫动画工具02GitHub 镜像站点03UV安装并设置国内源04Linux下V2Ray安装配置指南05两千字总结:Codex 国内如何安装和使用的教程,以及如何设置中文回答06KGG转MP3工具|非KGM文件|解密音频07windows找不到gpedit.msc(本地组策略编辑器)08荣耀手机2025年10月发布的新品Magic8比起Magic7,在硬件、性能、价格等上有什么区别,有什么优势09GitLab 零基础入门指南:从安装到项目管理全流程10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南