使用 Python 高效提取 Word 文档的特定页（连续页、不连续页、按页拆分）

[为什么 Word 很难按页处理？](#为什么 Word 很难按页处理？)

实现思路：选择支持分页计算的库

环境配置

[示例 1：使用 Python 提取 Word 文档中的一页或连续页码范围](#示例 1：使用 Python 提取 Word 文档中的一页或连续页码范围)

[示例 2：使用 Python 提取 Word 文档中不连续的页面](#示例 2：使用 Python 提取 Word 文档中不连续的页面)

[示例 3：使用 Python 将 Word 文档拆分为单页文件](#示例 3：使用 Python 将 Word 文档拆分为单页文件)

[提取 Word 页面的注意事项](#提取 Word 页面的注意事项)

总结

在日常做 Python 办公自动化时，处理 Word 文档往往不只是读取文本内容。很多时候，我们真正需要的是像处理 PDF 一样去操作 Word 文档，比如：

只保留合同的第一页用于归档
从几十页的报告中提取某几页发送给客户
把一个长文档拆成多个小文件，方便管理或分发

这些需求看起来很常见，但一旦落到 Word 上，就会发现一个问题：按页操作并不容易实现。这篇文章就围绕这个问题，整理了几种在实际项目中比较常见的需求，包括：

提取指定页面（单页或连续页码范围）
提取不连续页面
按页拆分整个 Word 文档

为什么 Word 很难按页处理？

如果你之前用过 python-docx，可能已经遇到过这个限制：它可以操作段落、表格、样式，但没法精确定位第几页。

原因在于Word 文档并不是按页存储的。.docx 是一种基于 XML 的结构，内容是连续流式的。所谓的第 1 页、第 2 页，其实是 Word 在打开文档时，根据以下条件动态计算出来的结果：

页面大小（A4、Letter 等）
页边距设置
字体、字号、行距
段落间距、分页符

也就是说，页码不是写在文件里的，而是算出来的。这也是为什么常规库无法直接做到提取第 X 页。

实现思路：选择支持分页计算的库

既然页码是渲染出来的，那解决思路就比较清晰了：需要一个能还原排版的工具。也就是在代码层面，把 Word 文档先进行一次布局计算，然后再按页面去操作。

这里使用的是 Spire.Doc for Python，它提供了直接的 API 来提取文档的页面，并支持处理.doc, .docx, .docm 等多种 Word 格式。

环境配置

首先，在终端中运行以下命令安装该库：

python 复制代码

pip install Spire.Doc

安装完成后，在项目中导入模块：

python 复制代码

from spire.doc import *

示例 1：使用 Python 提取 Word 文档中的一页或连续页码范围

要从 Word 文档中提取特定页面，可以使用 Document.ExtractPages() 方法。该方法会返回一个包含特定页面的新 Document 对象。它接收两个参数：

index: 起始页的索引。
count: 要提取的页面数量。

实现代码：

以下是使用 Python 从一个 Word 文档中提取第一页以及第 2-4 页的实现代码：

python 复制代码

from spire.doc import *

# 加载 Word 文档
doc = Document()
doc.LoadFromFile("输入.docx")

# 提取第 1 页 (索引为 0)
first_page = doc.ExtractPages(0, 1)
first_page.SaveToFile("第一页.docx", FileFormat.Docx)

# 提取第 2 至 4 页 (从索引 1 开始，提取 3 页)
page_range = doc.ExtractPages(1, 3)
page_range.SaveToFile("2到4页.docx", FileFormat.Docx)

# 释放资源
doc.Dispose()
first_page.Dispose()
page_range.Dispose()

这种方式在实际项目里用得非常多，比如：

只导出封面或摘要页
提取某个章节进行单独处理
按范围分段处理文档

相比逐个遍历元素复制内容，这种方式更稳定的一点在于：不会破坏原始布局 。

表格、图片、分页结构都会完整保留下来，不需要额外调整。

注意： 页面索引是从 0 开始的。因此，第二页的索引是 1。

示例 2：使用 Python 提取 Word 文档中不连续的页面

在实际应用中，有些需求并不是连续的一段页面，而是零散页面，比如：

第 1 页（封面）
第 3 页（摘要）
第 5 页（结论）

这种情况下，可以把问题拆开来处理：逐页提取，再合并结果。

基本思路是：

定义需要的页码列表（例如 [0, 2, 4]）。
循环遍历索引，调用 ExtractPages() 方法逐页提取。
把结果拼接到一个新文档中。

实现代码：

以下代码展示了如何使用 Python 提取 Word 文章中的不连续页面：

python 复制代码

from spire.doc import *

# 加载原文档
source_doc = Document()
source_doc.LoadFromFile("输入.docx")

# 创建用于存放结果的新文档
result_doc = Document()

# 定义要提取的页面索引 (第 1, 3, 5 页)
pages_to_extract = [0, 2, 4]

# 循环提取并合并
for page_index in pages_to_extract:
    temp_doc = source_doc.ExtractPages(page_index, 1)
    # 将提取页面的节 (Section) 添加到结果文档
    for section in temp_doc.Sections:
        result_doc.Sections.Add(section.Clone())
    temp_doc.Dispose()

# 保存结果
result_doc.SaveToFile("非连续页.docx", FileFormat.Docx)

source_doc.Dispose()
result_doc.Dispose()

注意： 这里有一个细节容易被忽略，在把内容加入新文档时，一定要用 .Clone()，这可以避免引用冲突并确保内容被正确复制。

示例 3：使用 Python 将 Word 文档拆分为单页文件

如果你的目标是将一个 Word 文档拆分为多个独立文件（每页一个文件），可以直接利用页数循环处理。

实现代码：

以下是使用 Python 将 Word 文档按页拆分为多个独立文件的实现代码：

python 复制代码

from spire.doc import *

# 加载 Word 文档
doc = Document()
doc.LoadFromFile("输出.docx")

# 获取总页数
page_count = doc.PageCount

# 按页拆分文档
for i in range(page_count):
    single_page_doc = doc.ExtractPages(i, 1)
    # 保存为独立文件，文件名从 Page_1 开始
    single_page_doc.SaveToFile(f"输出/第{i + 1}页.docx", FileFormat.Docx)
    single_page_doc.Dispose()

doc.Dispose()

这里文件名用 i + 1 而不是 i，只是为了让结果更符合人的阅读习惯。

这种方式适用于：

批量归档文档（按页存储）
拆分扫描件或合同附件
按页发送或上传文件

提取 Word 页面的注意事项

在处理页面提取时，有几个细节需要提前注意：

页码不是固定的
Word 的分页是动态计算的，比如修改字体、调整页边距、增减内容，都可能让"第 3 页"变成"第 4 页"。如果你的流程依赖固定页码，建议在处理后做一次简单校验，比如检查页数或关键内容是否正确。
不同环境可能影响结果
在不同系统或运行环境下（例如字体缺失、渲染方式不同），分页结果可能会出现细微差异。本地运行正常的结果，在服务器上不一定完全一致，这一点在自动化处理时需要特别留意。
内存占用问题
如果在循环中处理大量页面或批量文档，记得及时调用 .Dispose() 释放资源，避免对象长期占用内存。否则在处理较大的文件时，容易出现性能下降甚至内存溢出的问题。

总结

使用 Python 提取 Word 页面，是办公自动化中比较实用的一类需求，常见于报告拆分、内容截取以及文档归档等场景。

本文主要介绍了三种典型的页面提取方式：提取单页或连续页面，用于快速截取文档中的指定内容；提取不连续页面，用于从文档中筛选特定页并重新组合；以及按页拆分整个 Word 文档，将每一页保存为独立文件，便于后续管理与分发。通过这些方法，可以在不破坏原有排版的前提下，更灵活地对 Word 文档进行页面级处理，使其在实际自动化流程中更接近 PDF 的操作方式。

在实际使用时，建议结合真实文档进行测试，以确保分页结果符合预期，同时也需要留意不同环境下可能带来的排版差异。

使用 Python 高效提取 Word 文档的特定页 （连续页、不连续页、按页拆分）

为什么 Word 很难按页处理？

实现思路：选择支持分页计算的库

环境配置

示例 1：使用 Python 提取 Word 文档中的一页或连续页码范围

示例 2：使用 Python 提取 Word 文档中不连续的页面

示例 3：使用 Python 将 Word 文档拆分为单页文件

提取 Word 页面的注意事项

总结

使用 Python 高效提取 Word 文档的特定页（连续页、不连续页、按页拆分）