PDF操作——批量删除末页

一、说明

由于PDF末页为空白页或者是免责声明需要删除,涉及的文件比较多,因此写了一小段代码进行处理。

二、完整架构流程

这个代码的整体架构流程可以分为以下几个步骤:

  1. 导入所需的库 :首先,代码导入了PyPDF2os两个库。PyPDF2是一个Python库,用于处理PDF文件,而os库提供了与操作系统交互的功能。
  2. 定义find_pdf函数:这个函数用于获取指定文件夹中所有的PDF文件路径。它通过遍历文件夹及其子文件夹,检查每个文件的扩展名,并返回所有PDF文件的路径列表。
  3. 定义delete函数:这个函数用于删除PDF文件的最后一页。它首先打开指定的PDF文件,然后创建一个PDF读取器对象来读取文件内容。接着,它获取文件的总页数,并创建一个新的PDF写入器对象。这个函数遍历除最后一页外的所有页面,将这些页面添加到写入器对象中。最后,它将写入器对象中的页面写入到新的PDF文件中,并关闭文件流。
  4. 主程序 :在主程序部分,首先调用find_pdf函数获取指定文件夹中所有PDF文件的路径列表。然后,它遍历这个列表,对每个文件调用delete函数,以删除每个文件的最后一页。最后,它将处理后的文件保存到新的文件夹中。

请注意,这段代码仅是以实现主要功能为主,并没有处理可能的异常情况,例如打开文件失败、读取文件失败、写入文件失败等。在实际使用中,还需要添加适当的错误处理代码来确保程序的健壮性。

三、完整代码

python 复制代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2023-12-31 15:24
# @Author : Leuanghing Chen
# @Blog : https://blog.csdn.net/weixin_46153372?spm=1010.2135.3001.5421
# @File : pdf尾页删除.py
# @Software : PyCharm

import PyPDF2
import os


# 获取文件夹中的pdf文件路径
def find_pdf(path):
    filename_list = []
    archives_path_list = []
    # 读入文件
    for root, dirs, files in os.walk(path):
        # 遍历文件时以pdf文件为依据,获取文件名filename_list和文件路径archives_path_list
        for file in files:
            if file[-4:] == '.pdf' or file[-4:] == '.PDF':
                name = os.path.join(root, file).split("\\")[-1]
                filename_list.append(name.replace('.pdf', '').replace('.PDF', ''))
                archives_path_list.append(os.path.join(root, file))
    return archives_path_list

# 删除末页(old_path为旧路径,new_path为新路径。新旧文件分为两个文件夹,主要用来对比,也可以改成覆盖原文件的方式)
def delete(old_path, new_path):
    # 打开要处理的PDF文件
    pdf_file = open(old_path, 'rb')
    # 创建一个PDF读取器对象
    pdf_reader = PyPDF2.PdfFileReader(pdf_file)
    # 获取PDF文件的总页数
    num_pages = pdf_reader.getNumPages()
    # 创建一个新的PDF写入器对象
    pdf_writer = PyPDF2.PdfFileWriter()
    # 将所有除了最后一页以外的页面添加到写入器对象中
    for page_num in range(num_pages - 1):
        page = pdf_reader.getPage(page_num)
        pdf_writer.addPage(page)
    # 将写入器对象中的页面写入到新的PDF文件中
    output_file = open(new_path, 'wb')
    pdf_writer.write(output_file)
    # 关闭文件流
    pdf_file.close()
    output_file.close()


if __name__ == '__main__':
    path = find_pdf(r'C:\Users\LTCH\Desktop\新建文件夹 (2)')
    for i in range(len(path)):
        delete(path[i], path[i].replace('新建文件夹 (2)', '新建文件夹 (3)'))
相关推荐
TechWayfarer19 小时前
查询IP所在地的3种方案:从API到离线库,风控场景怎么选?
开发语言·网络·python·网络协议·tcp/ip
程序员榴莲19 小时前
Python 单例模式
开发语言·python·单例模式
hh.h.20 小时前
昇腾CANN ops-transformer 仓的 MC2 算子:MoE 模型的全到全通信
python·深度学习·transformer·cann
小+不通文墨20 小时前
树莓派玩转EMQX的常用指令清单
经验分享·笔记·学习
NiceCloud喜云21 小时前
Claude Files API 深入:从上传、复用到配额管理的工程化指南
android·java·数据库·人工智能·python·json·飞书
2501_9432050521 小时前
【205期】一键检测硬盘健康度_CrystalDiskInfo硬盘检测工具
经验分享
专注VB编程开发20年21 小时前
windows下python自带标准库 ≈ 70% 纯.py 源码,30% .pyd(DLL)
python
萌新小码农‍1 天前
人工智能数学基础+python实例(人工智能学习day3)
开发语言·人工智能·python
心中有国也有家1 天前
hccl 架构拆解:昇腾集合通信库到底在做什么?
人工智能·经验分享·笔记·分布式·算法·架构