Python办公自动化教程(001):PDF内容提取

1、Pdfplumber介绍

pdfplumber的github地址:

http 复制代码
https://github.com/jsvine/pdfplumber/
  • 【介绍】:pdfplumber 是一个用于处理 PDF 文件的 Python 第三方库,它提供了一种方便的方式来提取 PDF 文件中的文本、表格和其他信息。
  • 【功能】:pdfplumber 主要用于解析和提取 PDF 文件中的文本、表格、图像等信息。
    适用版本:支持 Python 3.6 及以上版本。
  • 【特点】:简单易用、准确性高、多平台支持(包括 Windows、Mac 和 Linux)、功能强大。
  • 【安装】:pip install pdfplumber

2、内容提取

【1】读取page对象

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    print(read_pdf.pages)

输出结果:

【2】打印完整内容

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    pages = read_pdf.pages
    for page in range(len(pages)):
        text = read_pdf.pages[page].extract_text()
        print(f'--------------第{page + 1}页内容---------------')
        print(text)

打印结果:

相关推荐
gogogo出发喽2 分钟前
flask vue
python
zhaoshuzhaoshu3 分钟前
设计模式之结构型设计模式详解
python·设计模式
每天吃饭的羊6 分钟前
nest,java对比
java·开发语言
sycmancia6 分钟前
Qt——登录对话框
开发语言·qt
专注VB编程开发20年6 分钟前
WebView2同时执行多个Promise异步任务性能损失1毫秒以内
开发语言
斯班奇的好朋友阿法法7 分钟前
Django 3.2 项目:从 Hello World 开始(完整功能版)
python·django
froginwe117 分钟前
Perl 目录操作指南
开发语言
架构师老Y9 分钟前
010:API网关调试手记:路由、认证与限流的那些坑
开发语言·前端·python
前端老石人9 分钟前
无障碍访问
开发语言·前端·html
软件开发技术9 分钟前
最新在线留言板系统PHP源码
开发语言·php·留言板系统php源码