Python 使用 pypdf 按指定页码范围批量拆分 PDF(分章节)

在处理电子书、扫描书籍或技术文档时,经常会遇到一个需求:

📌 按照指定页码范围,把一个 PDF 拆分成多个 PDF 文件(例如按章节拆分)

本文将介绍一种简单、稳定、无需外部依赖 的方法,使用 Python 的 pypdf 库来实现 PDF 的批定页码分割


一、环境准备

1️⃣ Python 版本

  • Python 3.8+(推荐 3.9 / 3.10 / 3.11)

可用以下命令确认:

bash 复制代码
python --version

2️⃣ 安装 pypdf

使用 pip 安装最新版 pypdf

bash 复制代码
pip install pypdf

如果你在 Linux / macOS 上,且存在 Python2/3 共存问题,可使用:

bash 复制代码
pip3 install pypdf

安装完成后测试是否成功:

python 复制代码
from pypdf import PdfReader, PdfWriter
print("pypdf installed OK")

二、实现思路说明

🔍 关键点解析

  • PdfReader:读取原始 PDF
  • PdfWriter:创建新的 PDF 文件
  • PDF 页码从 0 开始,而我们日常看到的是从 1 开始
  • 用户只需定义一个页码范围列表即可完成拆分

📌 适用场景

  • 按目录拆书
  • 按章节导出
  • 按页码人工校正后的分割

三、完整 Python 实现代码

python 复制代码
from pypdf import PdfReader, PdfWriter
import os


def split_pdf_by_page_ranges(input_pdf, output_folder, ranges):
    reader = PdfReader(input_pdf)

    # 创建输出目录
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    for idx, (start_page, end_page) in enumerate(ranges, 1):
        writer = PdfWriter()

        # PDF 内部页码从 0 开始,因此要 -1
        for page_num in range(start_page - 1, end_page):
            if page_num < len(reader.pages):
                writer.add_page(reader.pages[page_num])
            else:
                print(f"Warning: page {page_num + 1} out of range.")

        output_filename = (
            f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf"
        )

        with open(output_filename, "wb") as output_file:
            writer.write(output_file)

        print(f"Saved {output_filename}")

四、自定义章节页码范围

你只需要定义一个 页码区间列表,格式如下:

python 复制代码
# ✏️ 自定义分章节页码(格式:[(开始页, 结束页), ...])
page_ranges = [
    (1, 34),    # 序
    (35, 50),   # 第一章
    (51, 73),   # 第二章
    (74, 93),   # 第三章
    (94, 118),  # 第四章
    (119, 152), # 第五章
    (153, 166), # 第六章
    (167, 183), # 第七章
    (184, 206), # 第八章
    (207, 230), # 第九章
    (231, 251), # 第十章
]

📌 注意事项

  • 页码是 PDF 阅读器中看到的页码
  • 不需要关心 0 / 1 的问题,代码已处理
  • 超出 PDF 总页数会自动提示 Warning,不会报错

五、执行拆分

python 复制代码
split_pdf_by_page_ranges(
    "input.pdf",
    "./output_manual_split",
    page_ranges
)

执行后目录结构如下:

复制代码
output_manual_split/
├── chapter_1_pages_1-34.pdf
├── chapter_2_pages_35-50.pdf
├── chapter_3_pages_51-73.pdf
├── ...
└── chapter_11_pages_231-251.pdf

完整代码

python 复制代码
from pypdf import PdfReader, PdfWriter
import os


def split_pdf_by_page_ranges(input_pdf, output_folder, ranges):
    reader = PdfReader(input_pdf)


    if not os.path.exists(output_folder):
        os.makedirs(output_folder)


    for idx, (start_page, end_page) in enumerate(ranges, 1):
        writer = PdfWriter()


        # 页码从 0 开始,用户输入通常是从 1 开始
        for page_num in range(start_page - 1, end_page):
            if page_num < len(reader.pages):
                writer.add_page(reader.pages[page_num])
            else:
                print(f"Warning: page {page_num + 1} out of range.")

        output_filename = f"{output_folder}/chapter_{idx}_pages_{start_page}-{end_page}.pdf"
        with open(output_filename, "wb") as output_file:
            writer.write(output_file)


        print(f"Saved {output_filename}")


# ✏️ 自定义你的分章节页码(格式:[(开始页, 结束页), ...])
page_ranges = [
    (1, 34),   # 序
    (35, 50),  # 第一章
    (51, 73),  # 第二章
    (74,93),   # 第三章
    (94,118),     # 第四章
    (119,152),      # 第五章
    (153,166),      # 第六章
    (167,183),      # 第七章
    (184,206),      # 第八章
    (207,230),      # 第九章
    (231,251),      # 第十章
]


# 用法示例
split_pdf_by_page_ranges("input.pdf", "./output_manual_split", page_ranges)
相关推荐
辰阳星宇43 分钟前
python代码修复字符串json数据格式问题,并将其按照字典形式读取
windows·python·json
小白学大数据1 小时前
链家二手房数据爬取、聚类分析与可视化展示实践
开发语言·爬虫·python
梦想的旅途21 小时前
企业微信API自动化高效开发的实战指南
开发语言·python
幸福的达哥1 小时前
PyQt5多线程UI更新方法
python·qt·ui
玄同7651 小时前
SQLAlchemy 会话管理终极指南:close、commit、refresh、rollback 的正确打开方式
数据库·人工智能·python·sql·postgresql·自然语言处理·知识图谱
喵手1 小时前
Python爬虫零基础入门【第九章:实战项目教学·第11节】Playwright 入门实战:渲染后 HTML + 截图定位问题!
爬虫·python·爬虫实战·playwright·python爬虫工程化实战·零基础python爬虫教学·渲染html
一晌小贪欢1 小时前
Python ORM 深度解析:告别繁琐 SQL,让数据操作如丝般顺滑
开发语言·数据库·python·sql·python基础·python小白
南风微微吹1 小时前
【2026年大英赛】全国大学生英语竞赛ABCD类历年真题及答案解析PDF电子版(2012-2025年)
pdf·大英赛
x***r1511 小时前
MasterPDFportable使用步骤详解(附PDF编辑与合并教程)
pdf
华研前沿标杆游学1 小时前
2026智启新程 | 走进华为及商汤科技参观研学高级研修班
python