Python办公自动化教程(001):PDF内容提取

1、Pdfplumber介绍

pdfplumber的github地址:

http 复制代码
https://github.com/jsvine/pdfplumber/
  • 【介绍】:pdfplumber 是一个用于处理 PDF 文件的 Python 第三方库,它提供了一种方便的方式来提取 PDF 文件中的文本、表格和其他信息。
  • 【功能】:pdfplumber 主要用于解析和提取 PDF 文件中的文本、表格、图像等信息。
    适用版本:支持 Python 3.6 及以上版本。
  • 【特点】:简单易用、准确性高、多平台支持(包括 Windows、Mac 和 Linux)、功能强大。
  • 【安装】:pip install pdfplumber

2、内容提取

【1】读取page对象

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    print(read_pdf.pages)

输出结果:

【2】打印完整内容

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    pages = read_pdf.pages
    for page in range(len(pages)):
        text = read_pdf.pages[page].extract_text()
        print(f'--------------第{page + 1}页内容---------------')
        print(text)

打印结果:

相关推荐
阿正的梦工坊2 小时前
深入理解 PyTorch 中的 unsqueeze 操作
人工智能·pytorch·python
FreakStudio3 小时前
硬件版【Cursor】?aily blockly IDE尝鲜封神,实战硬伤尽显
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
郝学胜-神的一滴4 小时前
Qt 入门 01-01:从零基础到商业级客户端实战
开发语言·c++·qt·程序人生·软件构建
测试员周周4 小时前
【Appium 系列】第06节-页面对象实现 — LoginPage 实战
开发语言·前端·人工智能·python·功能测试·appium·测试用例
摇滚侠5 小时前
@Autowired 和 @Resource 的区别
java·开发语言
2301_783848655 小时前
优化文本分类中堆叠模型的网格搜索性能:避免训练卡顿的实战指南
jvm·数据库·python
Wy_编程5 小时前
go语言中的结构体
开发语言·后端·golang
SeaTunnel5 小时前
(八)收官篇 | 数据平台最后一公里:数据集成开发设计与上线治理实战
java·大数据·开发语言·白鲸开源
CLX05055 小时前
如何安装Oracle 12c Cloud Control_OMS服务端组件与Agent部署
jvm·数据库·python
大卡片6 小时前
C++的基础知识点
开发语言·c++