PDF分页处理:技术与实践

引言

在数字化办公和学习中,PDF文件因其便携性和格式稳定性而广受欢迎。然而,处理大型PDF文件时,我们经常需要将其拆分成单独的页面,以便于管理和分享。本文将探讨如何使用Python编程语言和一些流行的库来实现PDF文件的分页处理。

PDF分页的技术背景

PDF(Portable Document Format,便携式文档格式)是一种由Adobe系统公司开发的文件格式,用于表示文档的布局、文本、图形和其他元素。PDF文件广泛用于电子文档交换,因为它们可以在不同的操作系统和设备上保持一致的显示效果。

使用Python进行PDF分页

Python是一种灵活且功能强大的编程语言,拥有丰富的库支持,非常适合进行PDF文件的处理。以下是一些用于处理PDF的流行Python库:

PyPDF2

PyPDF2是一个强大的库,可以用于读取PDF文件、拆分页面、合并页面等。但是,从版本3.0.0开始,PyPDF2不再维护,推荐使用PdfReader替代PdfFileReader。

fitz (PyMuPDF)

fitz是另一个流行的库,它是MuPDF的Python绑定,提供了丰富的PDF处理功能。使用fitz,我们可以轻松地打开、解析和修改PDF文件。

实战:使用Python分页PDF

PDF上下分页

csharp 复制代码
import os
import pandas as pd
from PyPDF2 import PdfFileReader, PdfFileWriter

def split_pdf(infile):
    split_pdf_file = []
    split_pdf_file_name = []
    if '/' in infile:
        in_File = infile.split('/')[2][:-4]
    else:
        in_File = infile[:-4]
    new_filepath = os.path.join('%s/%s') % ('./resluts', in_File)
    if not os.path.exists(new_filepath):
        os.makedirs(new_filepath)
    with open(infile, 'rb') as infile:
        reader = PdfFileReader(infile, strict=False)
        number_of_pages = reader.getNumPages()
        print("共{}页".format(number_of_pages))
        for i in range(number_of_pages):
            writer = PdfFileWriter()
            writer.addPage(reader.getPage(i))
            out_new_file = new_filepath + '/' + str(i + 1)
            if not os.path.exists(out_new_file):
                os.makedirs(out_new_file)
            out_file_name = out_new_file + '/' + str(i + 1) + '.pdf'
            with open(out_file_name, 'wb') as outfile:
                writer.write(outfile)
            split_pdf_file.append(out_file_name)
            split_pdf_file_name.append(out_new_file)
        return split_pdf_file, split_pdf_file_name

结果如下:

PDF左右分页

csharp 复制代码
import pdfplumber
from PyPDF2 import PdfFileReader, PdfFileWriter
import os
def split_pdf(infile, out_path):
    if not os.path.exists(out_path):
        os.makedirs(out_path)
    with open(infile, 'rb') as infile:
        reader = PdfFileReader(infile)
        number_of_pages = reader.getNumPages()
        print("共{}页".format(number_of_pages))
        for i in range(number_of_pages):
            writer = PdfFileWriter()
            writer.addPage(reader.getPage(i))
            out_file_name = out_path + str(i + 1) + '.pdf'
            with open(out_file_name, 'wb', ) as outfile:
                writer.write(outfile)

def PdfSplitpath(new_filepath):
    isExists = os.path.exists(new_filepath)
    if not isExists:
        os.makedirs(new_filepath)
        print("----------目录创建成功--------")
    else:
        print("---------目录已经存在----------")

def SplitPDFLeft(inpath, outpath):
    inpath_new = os.listdir(inpath)
    for j in inpath_new:
        inpath1 = inpath + j
        with open(inpath1, "rb") as in_f:
            input1 = PdfFileReader(in_f)
            output = PdfFileWriter()

            numPages = input1.getNumPages()

            for i in range(numPages):
                page = input1.getPage(i)
                page.cropBox.lowerLeft = (10, 45) 
                page.cropBox.upperRight = (600, 841.89)
                output.addPage(page)

            with open(('%s/%s.pdf' % (outpath, j[:len(j) - 4] + '_lift')), "wb") as out_f:
                print("已写入第{}个pdf_lift".format(j[:len(j) - 4]))
                output.write(out_f)


def SplitPDFRight(inpath, outpath):
    inpath_new = os.listdir(inpath)
    for j in inpath_new:
        inpath1 = inpath + j
        with open(inpath1, "rb") as in_f:
            input1 = PdfFileReader(in_f)
            output = PdfFileWriter()

            numPages = input1.getNumPages()

            for i in range(numPages):
                page = input1.getPage(i)
                page.height = (791.89)
                page.width = (562.2)
                page.cropBox.upperRight = (600, 841.89) 
                page.cropBox.lowerLeft = (1162.2, 50) 
                output.addPage(page)

            with open(('%s/%s.pdf' % (outpath, j[:len(j) - 4] + '_right')), "wb") as out_f:
                print("已写入第{}个pdf_right".format(j[:len(j) - 4]))
                output.write(out_f)


if __name__ == '__main__':
    in_File = './data/越南协会组织与NGO组织目录.pdf'
    out_Path = './data/单页/'  # 生成输出文件夹
    split_pdf(in_File, out_Path)
    new_filepath = './data/分页'
    PdfSplitpath(new_filepath)
    inpath_new = os.listdir(out_Path)
    print(inpath_new)
    print(out_Path + inpath_new[3])
    print((inpath_new[3])[:len(inpath_new[3]) - 4])
    SplitPDFRight(out_Path, new_filepath)
    SplitPDFLeft(out_Path, new_filepath)

结果如下

单页PDF
左单页PDF
右单页PDF
相关推荐
伊织code4 小时前
pdfminer.six
python·pdf·图片·提取·文本·pdfminer·pdfminer.six
HAPPY酷7 小时前
给纯小白的Python操作 PDF 笔记
开发语言·python·pdf
代码AI弗森1 天前
PDF OCR + 大模型:让文档理解不止停留在识字
pdf·ocr
小周同学:2 天前
在 Vue2 中使用 pdf.js + pdf-lib 实现 PDF 预览、手写签名、文字批注与高保真导出
开发语言·前端·javascript·vue.js·pdf
Kyln.Wu2 天前
【python实用小脚本-187】Python一键批量改PDF文字:拖进来秒出新文件——再也不用Acrobat来回导
python·pdf·c#
迪尔~4 天前
Apache POI中通过WorkBook写入图片后出现导出PDF文件时在不同页重复写入该图片问题,如何在通过sheet获取绘图对象清除该图片
java·pdf·excel
忆~遂愿4 天前
Python实战教程:PDF文档自动化编辑与图表绘制全攻略
python·pdf·自动化
Rust语言中文社区4 天前
简单好用的在线工具:轻松把图片添加到 PDF
pdf
鲁班AI4 天前
pdf怎么转换成ppt?AI工具与传统方法深度对比
人工智能·pdf·powerpoint
大山运维4 天前
免费专业PDF文档扫描效果生成器
pdf