使用 C# 提取 Word 文档中的表格数据

在日常办公或系统开发中，Word 文档里的表格数据常常需要被提取出来，用于数据导入、统计分析或报表生成。然而，手动复制粘贴效率低下，而借助 Office COM 组件又容易遇到版本兼容、部署繁琐等问题。本文将展示如何使用 C# 搭配 Free Spire.Doc 库，无需安装 Microsoft Word，即可快速、稳定地提取 Word 表格内容，并导出为结构化的文本文件。

工具与环境准备

要实现 Word 表格提取，我们需要以下工具和组件：

开发环境 ：Visual Studio（2022/2019 等）或任意 C# 开发工具
第三方库 ：Free Spire.Doc（用于解析 Word 文档结构，处理表格数据）

Free Spire.Doc 是一个免费的 Word 文档处理库，支持读取、编辑、生成 Word 文档，尤其对表格、段落等元素的处理非常便捷。可以通过 NuGet 包管理器 安装它：

bash 复制代码

Install-Package FreeSpire.Doc

或者在项目中右键"管理 NuGet 包"，搜索 Spire.Doc 并安装。

⚠️ 注意：免费版单文档最多支持 25 个表格，适用于学习、测试和小型业务场景

提取 Word 表格实现思路

从 Word 中提取表格的核心思路是 逐层解析文档结构 ：

加载 Word 文档，获取文档对象
遍历文档中的"节（Section）"（Word 文档的基本结构单位）
在每个节中获取表格集合，遍历所有表格
对每个表格，逐行、逐单元格提取文本内容
将提取的表格数据按格式（制表符分隔）保存到文本文件

完整代码

csharp 复制代码

using Spire.Doc;
using Spire.Doc.Collections;
using Spire.Doc.Interface;
using System.IO;
using System.Text;

namespace ExtractWordTable
{
    internal class Program
    {
        static void Main(string[] args)
        {
            // 创建文档对象
            Document doc = new Document();
            // 加载Word文档
            doc.LoadFromFile("表格.docx");

            // 遍历文档中的所有节
            for (int sectionIndex = 0; sectionIndex < doc.Sections.Count; sectionIndex++)
            {
                Section section = doc.Sections[sectionIndex];

                // 获取当前节中的所有表格
                TableCollection tables = section.Tables;

                // 遍历当前节中的所有表格
                for (int tableIndex = 0; tableIndex < tables.Count; tableIndex++)
                {
                    ITable table = tables[tableIndex];

                    // 用于存储当前表格的所有数据
                    string tableData = "";

                    // 遍历表格中的所有行
                    for (int rowIndex = 0; rowIndex < table.Rows.Count; rowIndex++)
                    {
                        TableRow row = table.Rows[rowIndex];
                        // 遍历行中的所有单元格
                        for (int cellIndex = 0; cellIndex < row.Cells.Count; cellIndex++)
                        {
                            TableCell cell = row.Cells[cellIndex];

                            // 提取单元格文本（单元格可能包含多个段落）
                            string cellText = "";
                            for (int paraIndex = 0; paraIndex < cell.Paragraphs.Count; paraIndex++)
                            {
                                cellText += (cell.Paragraphs[paraIndex].Text.Trim() + " ");
                            }

                            // 拼接单元格文本，用制表符分隔不同单元格
                            tableData += cellText.Trim();
                            if (cellIndex < row.Cells.Count - 1)
                            {
                                tableData += "\t";
                            }
                        }

                        // 行结束后换行
                        tableData += "\n";
                    }

                    // 保存表格数据到文本文件）
                    string filePath = Path.Combine("Tables", $"Section{sectionIndex + 1}_Table{tableIndex + 1}.txt");
                    File.WriteAllText(filePath, tableData, Encoding.UTF8);
                }
            }

            doc.Close();
        }
    }
}

代码核心逻辑解析

① 遍历文档结构

Word 文档的逻辑结构是：Document → Section → Table → Row → Cell 。

节（Section） ：一个文档可以有多个节（如不同页码格式、页眉页脚的区域）。通过 doc.Sections 获取。
表格（Table） ：每个节可以包含多个表格，通过 section.Tables 获取。

② 提取单元格文本

单元格 TableCell 内部可能包含多个段落（Paragraph），每个段落可能有不同的格式（加粗、颜色等）。我们只需提取纯文本内容：

遍历 cell.Paragraphs，获取每个段落的 Text
使用 Trim() 去除段落首尾空白，避免多余换行。
多个段落之间用空格连接，保证可读性。

③ 保存为文本文件

每个表格单独保存为一个 .txt 文件，文件名包含节索引和表格索引，便于区分。
单元格之间用 制表符 \t 分隔，行末添加换行符。这种格式可直接复制到 Excel 中粘贴，或者被其他数据分析工具读取。

实用扩展方向

基于本文代码，可以轻松扩展以下功能：

1. 导出为 Excel 文件（使用 Free Spire.XLS）

csharp 复制代码

using Spire.Xls;
// 将 tableData 的二维数组写入 Workbook

2. 批量处理多个 Word 文档

csharp 复制代码

string[] files = Directory.GetFiles(@"C:\Docs", "*.docx");
foreach (string file in files)
{
    doc.LoadFromFile(file);
    // ... 提取逻辑
}

3. 文本清洗与格式化

去除特殊符号（如 \r, \n 替换为空格）
统一数字格式（如货币符号、百分比）
使用正则表达式过滤无关字符

4. 直接导入数据库

将提取的表格数据转换为 DataTable，然后使用 SqlBulkCopy 批量写入 SQL Server。

总结

通过本文介绍的方法，你可以高效地从 Word 文档中提取表格数据，为后续的数据处理提供便利。相比原生 Office Interop（需要安装 Word 且不稳定），Free Spire.Doc 无需依赖 Office 客户端，运行更轻量、稳定；代码逻辑清晰，便于复用和二次开发。