Python办公自动化教程(001):PDF内容提取

1、Pdfplumber介绍

pdfplumber的github地址:

http 复制代码
https://github.com/jsvine/pdfplumber/
  • 【介绍】:pdfplumber 是一个用于处理 PDF 文件的 Python 第三方库,它提供了一种方便的方式来提取 PDF 文件中的文本、表格和其他信息。
  • 【功能】:pdfplumber 主要用于解析和提取 PDF 文件中的文本、表格、图像等信息。
    适用版本:支持 Python 3.6 及以上版本。
  • 【特点】:简单易用、准确性高、多平台支持(包括 Windows、Mac 和 Linux)、功能强大。
  • 【安装】:pip install pdfplumber

2、内容提取

【1】读取page对象

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    print(read_pdf.pages)

输出结果:

【2】打印完整内容

代码:

python 复制代码
import pdfplumber

with pdfplumber.open('./file/test.pdf') as read_pdf:
    # 读取page对象
    pages = read_pdf.pages
    for page in range(len(pages)):
        text = read_pdf.pages[page].extract_text()
        print(f'--------------第{page + 1}页内容---------------')
        print(text)

打印结果:

相关推荐
高洁017 小时前
大模型微调进阶:多任务微调实战
人工智能·python·深度学习·机器学习·transformer
2401_865439637 小时前
mysql如何处理升级后的身份认证兼容性_mysql_native_password配置
jvm·数据库·python
zopple7 小时前
四大编程语言对比:PHP、Python、Java与易语言
java·python·php
NotFound4867 小时前
Flask项目目录怎么分_MVC架构在Flask应用中的常见目录树
jvm·数据库·python
2401_897190557 小时前
JavaScript对象浅拷贝:Object-assign的合并规则
jvm·数据库·python
Shorasul7 小时前
如何用 fill 配合 map 初始化一个填充了不同对象的数组
jvm·数据库·python
kaikaile19957 小时前
C# 文件编码转换工具
开发语言·c#
weixin_586061467 小时前
golang如何使用go-redis客户端_golang go-redis客户端使用教程
jvm·数据库·python
m0_377618237 小时前
C# 异步范围Asynchronous Disposal方法 C# await using如何使用
jvm·数据库·python
沐雪轻挽萤7 小时前
10. C++17新特性-保证的拷贝消除 (Guaranteed Copy Elision / RVO)
开发语言·c++