Python办公自动化教程(001):PDF内容提取

1、Pdfplumber介绍

pdfplumber的github地址:

http 复制代码
https://github.com/jsvine/pdfplumber/
  • 【介绍】:pdfplumber 是一个用于处理 PDF 文件的 Python 第三方库,它提供了一种方便的方式来提取 PDF 文件中的文本、表格和其他信息。
  • 【功能】:pdfplumber 主要用于解析和提取 PDF 文件中的文本、表格、图像等信息。
    适用版本:支持 Python 3.6 及以上版本。
  • 【特点】:简单易用、准确性高、多平台支持(包括 Windows、Mac 和 Linux)、功能强大。
  • 【安装】:pip install pdfplumber

2、内容提取

【1】读取page对象

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    print(read_pdf.pages)

输出结果:

【2】打印完整内容

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    pages = read_pdf.pages
    for page in range(len(pages)):
        text = read_pdf.pages[page].extract_text()
        print(f'--------------第{page + 1}页内容---------------')
        print(text)

打印结果:

相关推荐
qq_3806191615 小时前
如何在phpMyAdmin中处理特殊字符账号名的授权_反引号的正确包裹
jvm·数据库·python
2201_7568473316 小时前
HTML函数在老旧浏览器运行慢是硬件问题吗_软硬协同分析【教程】
jvm·数据库·python
晓纪同学16 小时前
EffctiveC++_第三章_资源管理
开发语言·c++·算法
蚊子码农16 小时前
每日一题--C语言指针与内存泄漏:一道小问题的深度复盘
c语言·开发语言
Fanfanaas16 小时前
Linux 系统编程 进程篇(一)
linux·运维·服务器·c语言·开发语言·网络·学习
星辰徐哥16 小时前
ARP缓存表:作用、查看方法与刷新技巧
开发语言·缓存·php
雨墨✘16 小时前
CSS如何提高团队协作效率_推广BEM规范减少样式沟通成本
jvm·数据库·python
ego.iblacat16 小时前
lvs 集群部署
开发语言·php·lvs
沐雪轻挽萤16 小时前
6. C++17新特性-编译期 if 语句 (if constexpr)
开发语言·c++
水云桐程序员16 小时前
C语言编程基础,输入与输出
c语言·开发语言·算法