如何使用 Python 将 PDF 转换为 TIFF 或将 TIFF 转换为 PDF

在现代数字化环境中，能够通过编程方式操作文档格式是实现业务流程自动化的重要基础。在法律、医疗和企业环境中，PDF（便携式文档格式）和TIFF（标记图像文件格式）无疑是最常用的文档存储格式。

虽然PDF是共享和查看文档的通用标准，但TIFF由于其无损特性以及支持将多个页面（帧）合并成一个文件的优势，依然是高质量存档、扫描和传真处理的首选格式。在本指南中，我们将深入探讨如何利用Python将这两种格式进行互相转换，借助Spire.PDF for Python和Pillow（PIL）库的强大功能。

1. 为什么需要在PDF和TIFF之间转换？

在我们深入代码之前，了解一下为什么会有这种技术需求是非常重要的。以下是一些典型的使用场景：

长期存档： 许多政府和法律机构要求使用TIFF格式进行长期存储，因为TIFF是一种"未压缩"的栅格格式，比起复杂的基于矢量的PDF格式，TIFF更不容易受到损坏。
扫描工作流程： 文档扫描仪通常输出多页TIFF文件。将这些文件转换为PDF可以提高文件的压缩率，并且可以添加OCR（光学字符识别）层，便于后期检索。
医学成像： DICOM和其他医学标准常常使用TIFF格式。将医学报告转换为PDF格式，能够让患者和医生更容易访问。
安全性： 将PDF转换为TIFF格式能够"平面化"文档，去除隐藏的元数据、注释和不可见的文本层，这对快速进行信息遮盖非常有效。

2. 设置Python开发环境

要跟随本教程进行操作，首先需要安装两个主要的库：

Spire.PDF for Python： 这是一个强大的库，能够创建、读取和操作PDF文档，并且无需依赖Adobe Acrobat。
Pillow（PIL）： 这是Python Imaging Library的一个"友好"分支，广泛用于打开、操作和保存多种图像文件格式。

你可以通过pip命令安装这些依赖：

复制代码

pip install Spire.Pdf
pip install Pillow

3. 使用Python将PDF转换为多页TIFF

将PDF转换为TIFF的挑战在于如何保留其多页结构。一般的图像转换方法可能只能提取第一页，而我们需要遍历整个PDF文件的页面，将每一页渲染为高分辨率的栅格图像，然后将这些图像"堆叠"成一个TIFF文件。

实现逻辑

我们通过PdfDocument加载PDF文件，然后使用SaveAsImage方法，这是一种将PDF矢量图像转换为位图图像的强大渲染方式。最后，Pillow的save方法用于将这些图像按页保存为多帧TIFF。

python 复制代码

from spire.pdf.common import *
from spire.pdf import *
from PIL import Image
from io import BytesIO

def convert_pdf_to_tiff(input_path, output_path):
    # 初始化PDF文档对象
    pdf_manager = PdfDocument()

    try:
        # 加载PDF文件
        pdf_manager.LoadFromFile(input_path)

        # 存储每页图像的列表
        collected_images = []

        # 遍历PDF中的每一页
        for i in range(pdf_manager.Pages.Count):
            # 渲染页面为图像流
            with pdf_manager.SaveAsImage(i) as image_stream:
                # 将图像流转换为PIL能理解的格式
                pil_img = Image.open(BytesIO(image_stream.ToArray()))
                collected_images.append(pil_img)

        # 如果成功提取了图像
        if collected_images:
            # save_all=True是创建多页TIFF的关键
            # append_images从第二页开始添加
            collected_images[0].save(
                output_path, 
                save_all=True, 
                append_images=collected_images[1:], 
                compression="tiff_lzw"  # LZW无损压缩，广泛支持
            )
            print(f"成功：{output_path}已生成，共包含{len(collected_images)}页。")

    except Exception as e:
        print(f"转换过程中发生错误：{e}")
    finally:
        # 释放资源以节省内存
        pdf_manager.Dispose()

# 执行函数
convert_pdf_to_tiff("Annual_Internal_Audit.pdf", "Audit_Archive_Fixed.tiff")

技术解析：压缩方式

在上面的代码中，我们使用了compression="tiff_lzw"。TIFF格式支持几种不同的压缩算法：

无压缩： 文件体积较大，但无质量损失。
LZW： 无损压缩，适合一般文档。
JPEG： 有损压缩，适合图片较多的文档，但不推荐用于文本。
PackBits： 简单的RLE压缩。

4. 使用Python将多页TIFF转换为PDF

从TIFF转换回PDF实际上是一个"重新包装"的过程。我们将TIFF的每一帧当做一张独立的图像，并将它们逐一插入到PDF的页面中。为了确保PDF的页面看起来合适，我们需要确保PDF页面的尺寸与图像的尺寸完全匹配。

实现逻辑

我们使用Pillow打开TIFF文件，并通过tiff.seek(i)遍历其中的每一帧。对于每一帧，我们计算图像的PhysicalDimension，确保PDF页面的尺寸适配图像。

python 复制代码

from spire.pdf.common import *
from spire.pdf import *
from PIL import Image
import io
import os

def convert_tiff_to_pdf(input_tiff, output_pdf_path):
    # 创建一个新的PDF文档
    new_pdf = PdfDocument()

    # 设置页面边距为零，确保图像填充整个页面
    new_pdf.PageSettings.SetMargins(0.0)

    try:
        # 打开TIFF文件
        with Image.open(input_tiff) as multi_frame_tiff:
            # 遍历TIFF中的每一帧
            for i in range(multi_frame_tiff.n_frames):
                multi_frame_tiff.seek(i)
                
                # 将每一帧保存到一个临时缓冲区
                frame_buffer = io.BytesIO()
                multi_frame_tiff.save(frame_buffer, format="PNG")
                frame_buffer.seek(0)
                
                # 将缓冲区中的图像加载到PDF文档中
                pdf_img = PdfImage.FromStream(frame_buffer)

                # 获取图像的宽高
                img_width = pdf_img.PhysicalDimension.Width
                img_height = pdf_img.PhysicalDimension.Height

                # 创建一个与图像尺寸相同的PDF页面
                pdf_page = new_pdf.Pages.Add(SizeF(img_width, img_height))

                # 将图像绘制到PDF页面的画布上
                pdf_page.Canvas.DrawImage(pdf_img, 0.0, 0.0, img_width, img_height)

        # 保存PDF文件
        new_pdf.SaveToFile(output_pdf_path, FileFormat.PDF)
        print(f"PDF文件已成功创建：{output_pdf_path}")

    except Exception as e:
        print(f"处理TIFF时发生错误：{e}")
    finally:
        new_pdf.Dispose()

# 执行函数
convert_tiff_to_pdf("Legacy_Records_Vol_1.tiff", "Digital_Library_V1.pdf")

5. 性能优化与最佳实践

处理1000页以上的文档时，简单的脚本可能会达到内存限制。以下是一些性能优化的建议：

A. 内存管理

在PDF转TIFF的过程中，我们将所有页面的图像存储在一个列表（collected_images）中。对于500页的PDF文件，这可能会消耗大量内存。

解决方法： 可以将每一页图像保存为单独的TIFF文件，存放在临时目录中，然后使用Pillow逐一读取这些文件进行处理，或者使用生成器模式，避免一次性将所有图像加载到内存中。

B. 分辨率与DPI（每英寸点数）

SaveAsImage方法通常允许指定DPI。对于普通的办公文档，300 DPI 通常是一个合适的选择，既保证了图像清晰度，又避免了文件过大。对于需要存档的法律文档，600 DPI会更合适。

C. 临时文件处理

在转换过程中，我使用了io.BytesIO代替将图像保存为物理.png文件，这样可以避免磁盘I/O的瓶颈，同时提高速度。

6. 高级扩展：添加水印

你可以在转换过程中动态添加水印，增加脚本的附加值。因为我们已经遍历了每一页，可以在页面上绘制文本或图像。

python 复制代码

# 动态添加水印的代码
font = PdfTrueTypeFont("Arial", 20.0, PdfFontStyle.Bold, True)
brush = PdfBrushes.get_Red()
pdf_page.Canvas.SetTransparency(0.5)
pdf_page.Canvas.DrawString("CONFIDENTIAL - INTERNAL ONLY", font, brush, 50, 50)

7. 总结

通过Python实现PDF和TIFF之间的自动化转换，为文档管理系统带来了极大的便利。使用Spire.PDF处理PDF文件结构，使用Pillow处理图像帧，可以轻松创建既强大又易于维护的脚本。

无论是构建传统的档案管理系统，还是开发现代化的云端文档处理系统，这些代码示例都为你提供了坚实的基础。记得在处理完资源后使用.Dispose()和with语句来确保应用程序在高负载下的性能。

关键要点：

PDF转TIFF： 遍历页面 > 渲染为图像 > 使用save_all=True保存。
TIFF转PDF： 遍历帧 > 计算图像尺寸 > 绘制到画布。
优化： 使用BytesIO提高速度，使用LZW压缩提高效率。