使用 Python 将 PDF 转换为 HTML：完整指南

[为什么要将 PDF 转换为 HTML？](#为什么要将 PDF 转换为 HTML？)

[使用 Python 将 PDF 转换为 HTML](#使用 Python 将 PDF 转换为 HTML)

[提取 PDF 中的特定页面并导出为 HTML](#提取 PDF 中的特定页面并导出为 HTML)

[导出 PDF 中的特定页面区域为 HTML](#导出 PDF 中的特定页面区域为 HTML)

[仅将 PDF 中的表格转换为 HTML](#仅将 PDF 中的表格转换为 HTML)

在许多场景中，我们可能需要将 PDF 文档转换为 HTML 文件。这在报表生成、网页发布以及自动化处理等场景中非常常见。尤其当 PDF 中包含结构化内容、文字、图片或表格时，将其转换为 HTML 可以更好地展示内容、增强交互性，或方便集成到网站和 Web 应用中。

与 PDF 相比，HTML 提供了更灵活的内容展示环境。一旦转换完成，内容可以通过 CSS 进行样式美化，嵌入网页中，并通过 JavaScript 实现交互操作。在本文中，我们将详细介绍如何使用 Python 将 PDF 转换为 HTML，并提供实用示例。主要内容包括：

使用 Python 将整个 PDF 转换为 HTML
提取 PDF 中的特定页面并导出为 HTML
导出 PDF 中的特定页面区域为 HTML
仅将 PDF 中的表格转换为 HTML

为什么要将 PDF 转换为 HTML？

将 PDF 转换为 HTML 并非只是格式变化，它能够为内容展示和后续处理带来许多优势。以下是开发者和内容创作者选择 PDF 转 HTML 的几个主要原因：

Web 友好：HTML 文件在浏览器中加载速度更快，且能够适应不同屏幕尺寸，无论是桌面端还是移动端都能良好显示。
交互性增强：PDF 中的链接、表格和图片可以变为动态 Web 内容，实现用户交互和数据展示。
数据提取与处理：将 PDF 转为 HTML 后，开发者可以更方便地操作数据，进行分析或二次处理。
分享更便捷：HTML 文件通常比 PDF 更小，可直接嵌入网站，无需下载即可查看。

准备工作

要在 Python 中将 PDF 转换为 HTML，需要借助 PDF 处理库。本文示例中使用 Spire.PDF for Python，它可以在无需 Adobe Acrobat 或其他外部 PDF 软件的情况下，将 PDF 文档或部分内容导出为 HTML。

在开始之前，请先通过 PyPI 安装库：

复制代码

pip install Spire.Pdf

注意：请确保你的 Python 版本为 3.7 或更高。

使用 Python 将 PDF 转换为 HTML

有时我们需要将整个 PDF 文档展示在网页中。转换整个 PDF 可以确保所有文字、图片和格式都得到保留。

步骤：

使用 PdfDocument.LoadFromFile() 加载 PDF。
使用 SaveToFile() 保存为 HTML。
关闭 PDF，释放资源。

示例：

python 复制代码

from spire.pdf import *

# 创建 PdfDocument 实例
pdf = PdfDocument()

# 加载 PDF 文件
pdf.LoadFromFile("sample.pdf")  # 替换为你的 PDF 路径

# 将 PDF 转换为 HTML
pdf.SaveToFile("output.html", FileFormat.HTML)

# 关闭 PDF 文档释放资源
pdf.Close()

print("整个 PDF 已成功转换为 HTML。")

提取 PDF 中的特定页面并导出为 HTML

有时，我们只需要 PDF 中部分页面的内容。转换整个 PDF 不仅不必要，还可能生成较大的 HTML 文件。此时可以选择提取特定页面进行转换。

步骤：

使用 PdfDocument.LoadFromFile() 加载原始 PDF。
创建新的 PdfDocument 用于保存所需页面。
将目标页面添加到新 PDF。
保存新 PDF 为 HTML 文件。

示例（只转换第 2、3 页）：

python 复制代码

from spire.pdf import *

# 加载原始 PDF
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 创建新 PDF，用于保存所选页面
selectedPdf = PdfDocument()

# 添加第 2 和第 3 页（索引从 0 开始）
selectedPdf.InsertPage(pdf, 1)
selectedPdf.InsertPage(pdf, 2)

# 将选定页面转换为 HTML
selectedPdf.SaveToFile("selected_pages.html", FileFormat.HTML)

# 关闭 PDF
pdf.Close()
selectedPdf.Close()

print("已成功将选定页面转换为 HTML。")

导出 PDF 中的特定页面区域为 HTML

有时只需要页面的一部分内容，比如图表、图片或特定文字区域。可以在导出前先裁剪页面。

步骤：

打开原始 PDF。
获取目标页面，并使用 CropBox 定义矩形区域。
创建新的 PDF，并插入裁剪后的页面。
使用 SaveToFile() 导出 HTML。
关闭 PDF，释放资源。

示例：

python 复制代码

from spire.pdf import *
from spire.pdf.graphics import PointF, RectangleF, SizeF

# Step 1: 加载 PDF
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# Step 2: 裁剪第一页到指定区域
page = pdf.Pages[0]
page.CropBox = RectangleF(PointF(30.0, 280.0), SizeF(552.0, 220.0))

# Step 3: 创建新 PDF 保存裁剪后的页面
new_pdf = PdfDocument()
new_pdf.InsertPage(pdf, 0, 0)

# Step 4: 保存裁剪后的页面为 HTML
new_pdf.SaveToFile("page_area.html", FileFormat.HTML)

# Step 5: 关闭 PDF
new_pdf.Close()
pdf.Close()

print("指定页面区域已成功导出为 HTML。")

仅将 PDF 中的表格转换为 HTML

PDF 中经常包含结构化表格，有时我们只需要表格内容。可以提取表格，并手动生成 HTML <table> 元素。

步骤：

加载 PDF。
遍历页面并使用 ExtractTables() 提取表格。
手动构建 HTML <table>。
保存 HTML 文件。

示例：

python 复制代码

from spire.pdf import PdfDocument, PdfTableExtractor

# 加载 PDF 文档
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")  # 注意这里换成你的 PDF 文件名

# 初始化 HTML 内容
html_content = "<html><body>"

# 创建 PdfTableExtractor 对象
table_extractor = PdfTableExtractor(pdf)

# 遍历每一页
for i in range(pdf.Pages.Count):
    # 提取当前页的所有表格
    tables = table_extractor.ExtractTable(i)
    
    for table_index, table in enumerate(tables):
        html_content += "<table border='1' cellspacing='0' cellpadding='4'>"
        for row in range(table.GetRowCount()):
            html_content += "<tr>"
            for col in range(table.GetColumnCount()):
                # 获取单元格文本，去掉换行和多余空格
                cell_text = table.GetText(row, col).replace("\n", " ").strip()
                html_content += f"<td>{cell_text}</td>"
            html_content += "</tr>"
        html_content += "</table><br>"

html_content += "</body></html>"

# 保存 HTML 文件
with open("tables_only.html", "w", encoding="utf-8") as f:
    f.write(html_content)

# 关闭 PDF
pdf.Close()

print("PDF 表格已成功转换为 HTML。")

这样每个表格在 HTML 中都会被单独保存为 <table> 元素，特别适合财务报表、发票或数据表格为主的 PDF 文件。

总结

使用 Python 将 PDF 转换为 HTML 可以使内容更加易访问、Web 友好，并方便集成到应用程序中。本文介绍了多种方法，包括：

将整个 PDF 转换为 HTML
提取特定页面并导出为 HTML
导出页面中指定区域
仅导出表格内容

通过这些方法，你可以高效地处理 PDF 文档，并根据需求定制输出内容。此外，使用同一个库，还可以完成 PDF 转图片、PDF 转 Excel 或 PDF 转 Word 等任务，实现更多自动化和数据处理场景。

常见问题解答

Q1: HTML 会保留 PDF 的布局吗？

A1: 会，Spire.PDF 可以保留大部分 PDF 的字体、图片和布局。

Q2: 可以只转换特定页面吗？

A2: 可以，你可以提取并转换选定页面。

Q3: 只提取表格可以吗？

A3: 可以，表格可以提取并保存为 HTML <table>。

Q4: 可以一次转换多个 PDF 吗？

A4: 可以，通过 Python 循环即可实现批量转换。

Q5: 需要 Adobe Acrobat 吗？

A5: 不需要，Spire.PDF 可直接编程实现所有转换功能，无需外部软件。