Python批量合并多个PDF

安装pymupdf

python 复制代码
pip install pymupdf

合并PDF文件

合并两个PDF

方法Document.insert_pdf()可以在不同的 PDF 文档之间复制页面。示例(doc1和doc2是打开的 PDF):

plain 复制代码
# append complete doc2 to the end of doc1
doc1.insert_pdf(doc2)
python 复制代码
import fitz  # PyMuPDF

def merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf):
    pdf1 = fitz.open(pdf1_path)
    pdf2 = fitz.open(pdf2_path)
    pdf1.insert_pdf(pdf2)
    pdf1.save(output_pdf, garbage=4)
    pdf1.close()
    pdf2.close()

合并多个PDF

python 复制代码
def merge_pdfs0(input_files: list, output_file: str):
    final_pdf = fitz.open()
    for temp_file in input_files:
        with fitz.open(temp_file) as temp_pdf:
            final_pdf.insert_pdf(temp_pdf)
    # 保存最终合并结果
    final_pdf.save(output_file, garbage=4)
    final_pdf.close()
    print(f"合并完成,输出文件为:{output_file}")

如果PDF非常多,或者单个PDF文件特别大,会导致final_pdf占用大量的内存,针对大文件和大量 PDF 的合并需求,可以进一步优化以减少内存占用和提高效率。以下是优化策略和改进代码示例:

优化策略

  1. 分批处理并写入
    • 大量文件时可以分批加载和合并,避免一次性加载所有文件。
    • 例如,每处理一组文件就保存一次部分结果,释放内存。
  2. 避免逐页插入
    • 如果文件页数很多,可以通过直接将整个 PDF 插入到目标文档中,而不是逐页插入,减少 insert_pdf 的调用次数。
  3. 多次保存分批结果,避免中间缓存
    • 分批处理每组文件后保存一个中间文件,再加载这个中间文件继续合并下一组。最终再合并中间文件。
  4. 利用磁盘而非内存
    • 可以采用文件缓存方式,将中间文件写入磁盘。合并完成后,删除不再需要的中间文件。

示例代码

python 复制代码
def merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf):
    """
    1、合并pdf1和pdf2输出到output_pdf
    2、删除临时文件
    """
    pdf1 = fitz.open(pdf1_path)
    pdf2 = fitz.open(pdf2_path)
    pdf1.insert_pdf(pdf2)
    pdf1.save(output_pdf, garbage=4)
    pdf1.close()
    pdf2.close()
    if pdf1_path.endswith('.tmp'):
        os.remove(pdf1_path)
    if pdf2_path.endswith('.tmp'):
        os.remove(pdf2_path)

def merge_pdfs(input_files, output_file):
    tmp_count = 0
    while len(input_files) > 2:
        merged_files = []
        for i in range(0, len(input_files), 2):
            if i + 1 < len(input_files):
                tmp_file = output_file + f'{tmp_count}.tmp'
                merge_two_pdf(input_files[i], input_files[i + 1], tmp_file)
                merged_files.append(tmp_file)
                tmp_count += 1
            else:
                merged_files.append(input_files[i])
        input_files = merged_files
    # Save the final merged PDF
    merge_two_pdf(input_files[0], input_files[1], output_file)
相关推荐
Amo Xiang2 小时前
《100天精通Python——基础篇 2025 第18天:正则表达式入门实战,解锁字符串处理的魔法力量》
python·正则表达式·re
敲键盘的小夜猫3 小时前
Python核心数据类型全解析:字符串、列表、元组、字典与集合
开发语言·python
apcipot_rain4 小时前
【应用密码学】实验五 公钥密码2——ECC
前端·数据库·python
小彭律师4 小时前
门禁人脸识别系统详细技术文档
笔记·python
鸿业远图科技5 小时前
分式注记种表达方式arcgis
python·arcgis
别让别人觉得你做不到6 小时前
Python(1) 做一个随机数的游戏
python
小彭律师7 小时前
人脸识别门禁系统技术文档
python
熊大如如7 小时前
Java 反射
java·开发语言
猿来入此小猿7 小时前
基于SSM实现的健身房系统功能实现十六
java·毕业设计·ssm·毕业源码·免费学习·猿来入此·健身平台