Python 如何精准统计 Word 文档的页数、字数、行数

在日常的文字处理、内容创作或翻译行业中，统计 Word 文档字数是一项基础且频繁的需求。无论是为了结算稿酬、把控文章篇幅，还是为了进行数据分析，高效、准确地获取文档统计信息都至关重要。

虽然 Microsoft Word 界面自带了统计功能，但在处理海量文档或需要将统计数据集成到自动化工作流中时，手动操作显然力不从心。今天，我们将探讨如何利用 Python 通过几行代码轻松实现对 Word 文档全文及特定段落的字数、字符数、行数和页数的精准统计。

为什么选择 Python 进行文档统计？

批量化处理：当你需要统计文件夹下成百上千个文档时，Python 脚本可以在秒级内完成任务。
精细控制：不仅能统计全文，还能精准定位到某个章节、某个段落，甚至是页眉页脚。
结果自动化导出：统计结果可以直接存入数据库、Excel 表格或生成报告，无需人工二次录入。

环境准备

在开始编写代码之前，我们需要安装支持库。Spire.Doc for Python 是一个功能丰富的文档处理类库，支持在不安装 Microsoft Word 的情况下创建、读取、编辑和转换 Word 文档。

你可以通过 pip 快速安装：

python 复制代码

pip install Spire.Doc

示例一：统计 Word 文档全文的页数、字数、行数等

Word 文档的属性中内置了许多元数据，包括页数、字数、字符数等。通过访问这些内置属性，我们可以快速获取整个文档的概况。

代码示例

以下代码演示了如何加载一个 .docx 文件，提取其全文字数、字符数、段落数、行数和页数信息并保存到文本文件中。

python 复制代码

from spire.doc import *
from spire.doc.common import *

# 1. 创建 Document 类的实例
doc = Document()

# 2. 加载待统计的 Word 文档
doc.LoadFromFile("Input.docx")

# 创建一个列表用于存储统计结果
results = []

# 3. 获取文档的内置属性
properties = doc.BuiltinDocumentProperties

# 4. 提取各项统计数据并添加到列表
# 包括：字数、字符数、段落数、行数和页数
results.append(f"总字数 (Word Count): {properties.WordCount}")
results.append(f"总字符数 (Char Count): {properties.CharCount}")
results.append(f"总段落数 (Paragraph Count): {properties.ParagraphCount}")
results.append(f"总行数 (Lines Count): {properties.LinesCount}")
results.append(f"总页数 (Page Count): {properties.PageCount}")

# 5. 将统计结果保存到文本文件
with open("DocumentStatistics.txt", "w", encoding="utf-8") as file:
    file.write("\n".join(results))

# 释放资源
doc.Close()
print("全文统计任务完成！")

技术要点解析

BuiltinDocumentProperties: 这是获取文档元数据的核心。它不仅仅能统计字数，还能获取作者、最后打印日期、修订次数等关键信息。
字段定义:
- WordCount: 统计文档中的单词数（英文按单词，中文通常按字符计数，具体视编码逻辑而定）。
- CharCount: 字符数，包含标点符号。
- LinesCount 和 PageCount: 这里的统计是基于文档的标准布局计算出的。

示例二：精准统计特定段落的字数

在某些复杂的业务场景中，我们可能并不关心整个文档，而只关心特定部分的长度。例如，法律合同中的"免责声明"段落，或者学术论文中的"摘要"部分。

Spire.Doc 允许我们将文档拆解为 Section（节）和 Paragraph（段落），从而实现局部统计。

代码示例

下面的代码演示了如何获取文档第一节中的第一个段落，并统计该段落内的字数和字符数。

python 复制代码

from spire.doc import *
from spire.doc.common import *

# 1. 初始化文档对象并加载文件
doc = Document()
doc.LoadFromFile("Input.docx")

# 2. 获取文档第一节（Section）中的第一个段落（Paragraph）
# 注意：索引从 0 开始
section = doc.Sections.get_Item(0)
paragraph = section.Paragraphs.get_Item(0)

# 创建结果列表
para_results = []

# 3. 统计该段落的字数和字符数
# Spire.Doc 提供了 Paragraph 级别的统计属性
para_results.append(f"该段落字数: {paragraph.WordCount}")
para_results.append(f"该段落字符数: {paragraph.CharCount}")

# 4. 将局部统计结果保存
with open("ParagraphStatistics.txt", "w", encoding="utf-8") as file:
    file.write("\n".join(para_results))

# 释放资源
doc.Close()
print("段落统计任务完成！")

技术要点解析

层级定位 : doc.Sections.get_Item(0) 定位到第一节，Paragraphs.get_Item(0) 定位到该节的首段。这种层级访问模式非常适合处理结构化程度高的文档。
局部 vs 全局: 局部统计不会受到页眉、页脚或隐藏文本的影响，结果更加纯粹。

批量处理与优化建议

1. 批量统计文件夹下的所有 Word 文档

如果你有一个文件夹，里面装满了 .docx 或 .doc 文件，你可以结合 Python 的 os 库进行批量操作：

python 复制代码

import os
from spire.doc import *

folder_path = "./my_docs"
for filename in os.listdir(folder_path):
    if filename.endswith(".docx"):
        file_path = os.path.join(folder_path, filename)
        doc = Document()
        doc.LoadFromFile(file_path)
        # ... 执行统计逻辑 ...
        doc.Close()

2. 关于中英文统计的差异

在处理中文文档时，我们需要注意"字数"与"字符数"的区别。通常在中文环境下：

字数：往往指汉字的数量。
字符数：包括汉字、标点符号、空格以及英文单词中的字母。

在使用 API 统计时，建议同时获取这两个指标，以便根据实际需求选择最合适的数值。

3. 文档预处理

有时候文档中包含大量的图片、表格或空白行，这可能会干扰你的统计逻辑。在调用 WordCount 之前，可以先利用正则表达式或 Spire.Doc 的查找替换功能，剔除不必要的空白字符，从而获得更符合业务逻辑的"有效字数"。

总结

本文展示了如何使用 Python 对 Word 文档进行页数、字数、字符数、行数等统计。通过访问文档属性和段落对象，可以快速获取所需数据，便于在自动化脚本或数据处理流程中使用。

如果你正在开发一个文档管理系统，或者正在被繁琐的文字统计工作所困扰，不妨尝试将这两段代码集成到你的工具箱中。这不仅能极大地提高效率，还能确保数据的一致性与准确性。