【数据提取】 Python 提取PDF中的文字和图片

从PDF中提取内容能帮助我们获取文件中的信息,以便进行进一步的分析和处理。此外,在遇到类似项目时,提取出来的文本或图片也能再次利用。要使用Python从PDF文件中提取文本和图片 ,可以借助**Spire.PDF for Python** 这个第三方库。具体操作方法查阅下文。

目录

[安装 Spire.PDF for Python](#安装 Spire.PDF for Python)

[使用 Python 提取PDF文本](#使用 Python 提取PDF文本)

[使用 Python 提取PDF页面中指定矩形区域的文本](#使用 Python 提取PDF页面中指定矩形区域的文本)

[使用 Python 提取PDF图片](#使用 Python 提取PDF图片)


安装 Spire.PDF for Python

本文中用到的Python PDF库支持在各种 Python 程序中创建、读取、编辑、转换和保存 PDF 文档。要安装此产品,使用以下 pip 命令。

复制代码
pip install Spire.PDF

详细安装教程点击: 如何在 VS Code 中安装 Spire.PDF for Python

使用 Python 提取PDF文本

Spire.PDF for Python 提供的 PdfPageBase.ExtractText() 方法能提取一个 PDF 页面中文本。根据你的具体需求,你可以选择仅提取某页中的文本,或者遍历所有页面以提取整个PDF文件中的文本。完整Python代码如下:

python 复制代码
from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")

# 创建一个TXT文件来保存提取的文本
extractedText = open("Output/提取文本.txt", "w", encoding="utf-8")

# 遍历文档的每一页
for i in range(pdf.Pages.Count):
    # 获取页面
    page = pdf.Pages.get_Item(i)
    # 从页面提取文本
    text = page.ExtractText()
    # 将文本写入TXT文件
    extractedText.write(text + "\n")

extractedText.close()
pdf.Close()

提取结果:

使用 Python 提取PDF页面中指定矩形区域的文本

如果你只需要提取某个PDF页面中指定区域的文本,你可以指定一个矩形范围然后使用 PdfPageBase.ExtractText(RectangleF rectangleF) 方法提取其中的文本内容。完整Python代码如下:

python 复制代码
from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")

# 获取第一页
page = pdf.Pages.get_Item(0)

# 从页面的指定矩形区域提取文本
text = page.ExtractText(RectangleF(0.0, 400.0, 770.0, 180.0))

# 将提取的文本保存到TXT文件中
extractedText = open("Output/PDF文本.txt", "w", encoding="utf-8")
extractedText.write(text)
extractedText.close()
pdf.Close()

提取结果:

使用 Python 提取PDF图片

除了提取文本外,Spire.PDF for Python 还提供了 PdfPageBase.ExtractImages() 方法来提取PDF文件中的图片。要提取一个PDF文件中的所有图片并保存到指定路径,参考以下Python代码。

python 复制代码
from spire.pdf import *
from spire.pdf.common import *

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("大数据.pdf")

# 创建一个列表来存储图篇
images = []

# 遍历文档的每一页
for i in range(pdf.Pages.Count):
    # 获取页面
    page = pdf.Pages.get_Item(i)
    # 从页面提取图片并存储在创建的列表中
    for img in page.ExtractImages():
        images.append(img)

# 保存图像
i = 0
for image in images:
    i += 1
    image.Save("Output/图片/图片-{0:d}.png".format(i), ImageFormat.get_Png())

pdf.Close()

提取结果:

通过Spire.PDF for Python库提供的以上示例,就能轻松实现PDF文件内容的提取。如果对该Python库感兴趣,可点击了解更多功能:Spire.PDF for Python 中文教程

相关推荐
是梦终空37 分钟前
计算机毕业设计240—基于python+爬虫+html的微博舆情数据可视化系统(源代码+数据库)
爬虫·python·pandas·课程设计·毕业论文·计算机毕业设计·微博舆情可视化
CodeJourney.40 分钟前
Python开发可视化音乐播放器教程(附代码)
数据库·人工智能·python
爱学习的小鱼gogo1 小时前
pyhton 螺旋矩阵(指针-矩阵-中等)含源码(二十六)
python·算法·矩阵·指针·经验·二维数组·逆序
言之。2 小时前
Andrej Karpathy 演讲【PyTorch at Tesla】
人工智能·pytorch·python
赵谨言2 小时前
基于Python楼王争霸劳动竞赛数据处理分析
大数据·开发语言·经验分享·python
神奇的小猴程序员3 小时前
Mutantcat Web Pdf Reader —— 开源、轻量、安全的网页 PDF 阅读器
前端·pdf
智启七月3 小时前
谷歌 Gemini 3.0 正式发布:一键生成 Web OS,编程能力碾压竞品
人工智能·python
2401_841495643 小时前
【强化学习】动态规划算法
人工智能·python·算法·动态规划·强化学习·策略迭代·价值迭代
测试19983 小时前
自动化测试报告生成(Allure)
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
ekkcole3 小时前
java把word转pdf使用jar包maven依赖
java·pdf·word