Python批量合并多个PDF

安装pymupdf

python 复制代码
pip install pymupdf

合并PDF文件

合并两个PDF

方法Document.insert_pdf()可以在不同的 PDF 文档之间复制页面。示例(doc1和doc2是打开的 PDF):

plain 复制代码
# append complete doc2 to the end of doc1
doc1.insert_pdf(doc2)
python 复制代码
import fitz  # PyMuPDF

def merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf):
    pdf1 = fitz.open(pdf1_path)
    pdf2 = fitz.open(pdf2_path)
    pdf1.insert_pdf(pdf2)
    pdf1.save(output_pdf, garbage=4)
    pdf1.close()
    pdf2.close()

合并多个PDF

python 复制代码
def merge_pdfs0(input_files: list, output_file: str):
    final_pdf = fitz.open()
    for temp_file in input_files:
        with fitz.open(temp_file) as temp_pdf:
            final_pdf.insert_pdf(temp_pdf)
    # 保存最终合并结果
    final_pdf.save(output_file, garbage=4)
    final_pdf.close()
    print(f"合并完成,输出文件为:{output_file}")

如果PDF非常多,或者单个PDF文件特别大,会导致final_pdf占用大量的内存,针对大文件和大量 PDF 的合并需求,可以进一步优化以减少内存占用和提高效率。以下是优化策略和改进代码示例:

优化策略

  1. 分批处理并写入
    • 大量文件时可以分批加载和合并,避免一次性加载所有文件。
    • 例如,每处理一组文件就保存一次部分结果,释放内存。
  2. 避免逐页插入
    • 如果文件页数很多,可以通过直接将整个 PDF 插入到目标文档中,而不是逐页插入,减少 insert_pdf 的调用次数。
  3. 多次保存分批结果,避免中间缓存
    • 分批处理每组文件后保存一个中间文件,再加载这个中间文件继续合并下一组。最终再合并中间文件。
  4. 利用磁盘而非内存
    • 可以采用文件缓存方式,将中间文件写入磁盘。合并完成后,删除不再需要的中间文件。

示例代码

python 复制代码
def merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf):
    """
    1、合并pdf1和pdf2输出到output_pdf
    2、删除临时文件
    """
    pdf1 = fitz.open(pdf1_path)
    pdf2 = fitz.open(pdf2_path)
    pdf1.insert_pdf(pdf2)
    pdf1.save(output_pdf, garbage=4)
    pdf1.close()
    pdf2.close()
    if pdf1_path.endswith('.tmp'):
        os.remove(pdf1_path)
    if pdf2_path.endswith('.tmp'):
        os.remove(pdf2_path)

def merge_pdfs(input_files, output_file):
    tmp_count = 0
    while len(input_files) > 2:
        merged_files = []
        for i in range(0, len(input_files), 2):
            if i + 1 < len(input_files):
                tmp_file = output_file + f'{tmp_count}.tmp'
                merge_two_pdf(input_files[i], input_files[i + 1], tmp_file)
                merged_files.append(tmp_file)
                tmp_count += 1
            else:
                merged_files.append(input_files[i])
        input_files = merged_files
    # Save the final merged PDF
    merge_two_pdf(input_files[0], input_files[1], output_file)
相关推荐
新子y2 分钟前
【小白笔记】「while」在程序语言中的角色
笔记·python
java1234_小锋11 分钟前
[免费]基于Python的YOLO深度学习垃圾分类目标检测系统【论文+源码】
python·深度学习·yolo·垃圾分类·垃圾分类检测
TDengine (老段)18 分钟前
TDengine 数据函数 ROUND 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·1024程序员节
TDengine (老段)21 分钟前
TDengine 数学函数 RAND 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
從南走到北21 分钟前
JAVA无人自助共享系统台球室源码自助开台约球交友系统源码小程序
java·微信·微信小程序·小程序·1024程序员节
野犬寒鸦32 分钟前
从零起步学习MySQL || 第十章:深入了解B+树及B+树的性能优势(结合底层数据结构与数据库设计深度解析)
java·数据库·后端·mysql·1024程序员节
凌晨一点的秃头猪40 分钟前
面向对象和面向过程 编程思想
python
总有刁民想爱朕ha1 小时前
银河麒麟v10批量部署Python Flask项目小白教程
开发语言·python·flask·银河麒麟v10
星空的资源小屋1 小时前
Antares SQL,一款跨平台开源 SQL 客户端
数据库·人工智能·pdf·开源·电脑·excel·1024程序员节
没有bug.的程序员2 小时前
Spring 常见问题与调试技巧
java·后端·spring·动态代理·1024程序员节