技术栈

python 提取PDF文字

柚见2024-02-24 20:05

使用pdfplumber,不能提取扫描的pdf和插入的图片。

python 复制代码
import pdfplumber

file_path = r'D:\UserData\admindesktop\官方文档\1903_Mesh-Models-Overview_FINAL.pdf'
with pdfplumber.open(file_path) as pdf:
    page = pdf.pages[0]
    print(page.extract_text()) # 所以文字
    print([word["text"] for word in page.extract_words()]) # 提取存在的文字
上一篇:Java导出pdf格式文件
下一篇:分布式扫描bean问题
相关推荐
py小王子
1 分钟前
GitHub 文件/文件夹批量上传工具
python·github
小鸡吃米…
20 分钟前
TensorFlow——Keras 框架
人工智能·python·tensorflow·keras
懒惰的bit
28 分钟前
Python入门学习记录
python·学习
米羊121
31 分钟前
Spring 框架漏洞
开发语言·python
二十雨辰
34 分钟前
[python]-闭包和装饰器
python
大尚来也
1 小时前
Python 调用 Ollama 本地大模型 API 完全指南
开发语言·python
qq_2421886332
1 小时前
Python 春节贺卡代码
开发语言·python
Lenyiin
1 小时前
《LeetCode 顺序刷题》11 -20
java·c++·python·算法·leetcode·lenyiin
Jelena15779585792
1 小时前
淘宝图搜API接口技术深度解析:从架构设计到工程实践
python·api
瞎某某Blinder
10 小时前
DFT学习记录[4] 电子和空穴的有效质量计算全流程
python·学习
热门推荐
01从零搭建一个 PHP 登录注册系统(含完整源码)02使用 1panel面板 部署 php网站03如何将 TRAE IDE 的插件市场源切换至 VS Code 官方市场04PHP Error: 常见错误及其解决方法05openClaw安装飞书插件|核心踩坑:spawn EINVAL 错误终极解决指南06GitHub 镜像站点07Android Studio Panda 1 正式版来了:JDK 终于不用手动配了,内存泄漏也有原生方案了08Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services09全面体验 Grok API 中转站(2025 · Grok 4 系列最新版)10HTB 赛季10 - Pterodactyl - user