PDF文件切割,无大小限制

前言

公司让学习一个东西,让写一个学习总结,我想这不是AI的拿手好戏,直接把近100M的PDF喂给他,然后他说吃不下,太大了

小事,那么多在线PDF工具网站,分分钟拆开,然后找了半天也都是有大小限制,不是20M就是50M,要不然就是下了软件还要开会员,搞烦的,自己写一个把

准备环境

1.python

2.pdf库 pip install PyPDF2==3.0.1

版本要注意一下,低版本的一些语法和下文代码可能对不上

配置

首先要按章节拆分出来,定义一个配置文件,比如第1章内容是从 第10页到20页拆成一个文件

这里要注意的是页码并不是PDF的右下角的页码,是整个文件第几页的含义,可以用Edge打开PDF,上面就有显示当前是第几页

我拆除下面的三个章节

复制代码
154, 174
175, 205
206, 250

代码

复制代码
import PyPDF2  
import sys  
import os  

def split_specific_pages_to_pdf(input_pdf_path, output_pdf_path, start_page, end_page):  
    # 打开输入的 PDF 文件  
    with open(input_pdf_path, "rb") as input_pdf_file:  
        # 创建一个 PdfReader 对象  
        pdf_reader = PyPDF2.PdfReader(input_pdf_file)  
          
        # 确保请求的页面范围在PDF文件的页数范围内  
        if start_page < 1 or end_page > len(pdf_reader.pages) or start_page > end_page:  
            raise ValueError("无效的页面范围")  
          
        # 创建一个 PdfFileWriter 对象  
        pdf_writer = PyPDF2.PdfWriter()  
          
        # 遍历选定的页面  
        for page_number in range(start_page - 1, end_page):  # 注意这里的range起始值需要调整为start_page - 1  
            # 将当前页添加到 PdfWriter 对象  
            pdf_writer.add_page(pdf_reader.pages[page_number])  
          
        # 将所有选定页面写入新的 PDF 文件  
        with open(output_pdf_path, "wb") as output_pdf_file:  
            pdf_writer.write(output_pdf_file)  
          
        print(f"已保存: {output_pdf_path}")  
  


if len(sys.argv) > 1:  
    input_pdf_path = sys.argv[1]
else:  
	print("没有传入额外的参数")
	sys.exit()

if not os.path.isfile("config.txt"):
	print("配置文件不存在")
	sys.exit()
	
with open('config.txt', 'r') as file: 
	for line in file:  
		start, end = line.strip().split(',')
		start = int(start)
		end = int(end)
		split_specific_pages_to_pdf(input_pdf_path, f"file-{start}-{end}.pdf", start, end)

然后把配置文件、代码、PDF文件放在一个目录就可以了

python main.py xxxx.pdf

打包exe

功能确认的一般我喜欢打包成exe

pyinstaller --clean -w -F -i ico.ico --name=PDF文件切割.exe main.py

只需要把pdf拖到exe上就可以,不想写代码的话可以私信我exe

相关推荐
顾林海4 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱6 小时前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽11 小时前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码11 小时前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
兵慌码乱21 小时前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理
金銀銅鐵1 天前
[Python] 体验用欧几里得算法计算最大公约数的过程
python·数学
FreakStudio1 天前
W55MH32L-EVB 上手测评:硬件 TCP/IP 加持的以太网单片机,MicroPython 零门槛开发
python·单片机·嵌入式·大学生·面向对象·并行计算·电子diy·电子计算机
用户0332126663671 天前
使用 Python 从零创建 Word 文档
python
Csvn1 天前
Python 两大经典坑点 —— 可变默认参数 & 闭包延迟绑定
后端·python
曲幽1 天前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了
python·docker·web·pot·translate·libretranslate·arogstranslate