Linux 下合并多个 PDF 文件为一个 PDF 文件的方法

Linux 下合并多个 PDF 文件为一个 PDF 文件的方法

技术背景

在 Linux 系统中，有时需要将多个 PDF 文件合并成一个大的 PDF 文件。例如，在整理文档、生成报告等场景下，合并多个相关的 PDF 文件可以提高文档的整体性和可读性。有多种工具和方法可实现这一需求，下面将介绍一些常见的解决方案。

实现步骤

1. 使用 pdfunite

pdfunite 是 poppler 工具集的一部分，安装较为常见，使用也相对简单。

复制代码

pdfunite in-1.pdf in-2.pdf in-n.pdf out.pdf

为避免覆盖最后一个输入文件，可添加文件存在性检查：

复制代码

export output_file=out.pdf && \! test -e $output_file && \pdfunite in-1.pdf in-2.pdf in-n.pdf $output_file

2. 使用 Ghostscript

Ghostscript 是一个强大的工具，无需额外安装其他软件。

复制代码

gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile=merged.pdf mine1.pdf mine2.pdf

对于低分辨率的 PDF 文件，可使用以下改进版本：

复制代码

gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress -sOutputFile=merged.pdf mine1.pdf mine2.pdf

还可使用 -o 选项简化命令：

复制代码

gs -q -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress -o merged.pdf mine1.pdf mine2.pdf

3. 使用 pdftk

pdftk 可以处理加密的 PDF 文件。

复制代码

pdftk file1.pdf file2.pdf cat output output.pdf

4. 使用 qpdf

qpdf 适合处理复杂的 PDF 操作，如选择特定页面合并。

复制代码

qpdf --empty --pages *.pdf -- out.pdf

5. 使用 pdfjoin

复制代码

pdfjoin a.pdf b.pdf

这会创建一个新的 b-joined.pdf 文件，包含 a.pdf 和 b.pdf 的内容。

6. 使用 Python 和 PyPDF2

当需要合并大量文件时，可使用 Python 结合 PyPDF2 库。

复制代码

from pathlib import Pathfrom PyPDF2 import PdfMergerimport natsortDIR = Path("dir-with-pdfs/")OUTPUT = "output.pdf"paths = DIR.glob("*.pdf")paths = natsort.natsorted(paths)merger = PdfMerger()for path in paths:    merger.append(path)merger.write(OUTPUT)

核心代码

以下是使用 Ghostscript 合并多个 PDF 文件的核心代码：

复制代码

gs -q -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress -o merged.pdf mine1.pdf mine2.pdf

使用 Python 和 PyPDF2 合并 PDF 文件的核心代码：

复制代码

from PyPDF2 import PdfMergermerger = PdfMerger()pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']for pdf in pdf_files:    merger.append(pdf)merger.write('merged.pdf')merger.close()

最佳实践

选择合适的工具

根据具体需求选择合适的工具。如果只是简单合并整个 PDF 文件，pdfunite 是不错的选择；如果需要处理加密文件，可使用 pdftk；如果需要更复杂的操作，如选择特定页面合并，qpdf 更合适。
注意文件大小

某些工具可能会导致合并后的文件大小显著增加，可根据情况调整参数，如使用 Ghostscript 时设置合适的 PDFSETTINGS。
检查文件完整性

合并前确保所有输入的 PDF 文件完整且可读，避免合并过程中出现错误。

常见问题

pdfunite 覆盖文件

使用 pdfunite 时，如果忘记指定输出文件名，会覆盖最后一个输入文件。可添加文件存在性检查来避免。
convert 命令效果不佳

convert 命令通常会将 PDF 转换为图像，导致质量下降和文件大小增加，不建议用于 PDF 合并。
pdftk 依赖问题

在某些系统中，pdftk 可能依赖于 gcj，而部分系统不再支持该依赖，可考虑使用其他工具替代。
超链接和注释丢失

部分工具在合并过程中可能会导致超链接和注释丢失，如 pdfunite、pdfjoin 等。可使用 pdftk、sejda-console 等工具来保留这些信息。

循环开课-面授/直播

课程配套服务：