在日常办公或系统开发中,Word 文档里的表格数据常常需要被提取出来,用于数据导入、统计分析或报表生成。然而,手动复制粘贴效率低下,而借助 Office COM 组件又容易遇到版本兼容、部署繁琐等问题。本文将展示如何使用 C# 搭配 Free Spire.Doc 库,无需安装 Microsoft Word,即可快速、稳定地提取 Word 表格内容,并导出为结构化的文本文件。
工具与环境准备
要实现 Word 表格提取,我们需要以下工具和组件:
- 开发环境 :Visual Studio(2022/2019 等)或任意 C# 开发工具
- 第三方库 :Free Spire.Doc(用于解析 Word 文档结构,处理表格数据)
Free Spire.Doc 是一个免费的 Word 文档处理库,支持读取、编辑、生成 Word 文档,尤其对表格、段落等元素的处理非常便捷。可以通过 NuGet 包管理器 安装它:
bash
Install-Package FreeSpire.Doc
或者在项目中右键"管理 NuGet 包",搜索 Spire.Doc 并安装。
⚠️ 注意 :免费版单文档最多支持 25 个表格,适用于学习、测试和小型业务场景
提取 Word 表格实现思路
从 Word 中提取表格的核心思路是 逐层解析文档结构 :
- 加载 Word 文档,获取文档对象
- 遍历文档中的"节(Section)"(Word 文档的基本结构单位)
- 在每个节中获取表格集合,遍历所有表格
- 对每个表格,逐行、逐单元格提取文本内容
- 将提取的表格数据按格式(制表符分隔)保存到文本文件
完整代码
csharp
using Spire.Doc;
using Spire.Doc.Collections;
using Spire.Doc.Interface;
using System.IO;
using System.Text;
namespace ExtractWordTable
{
internal class Program
{
static void Main(string[] args)
{
// 创建文档对象
Document doc = new Document();
// 加载Word文档
doc.LoadFromFile("表格.docx");
// 遍历文档中的所有节
for (int sectionIndex = 0; sectionIndex < doc.Sections.Count; sectionIndex++)
{
Section section = doc.Sections[sectionIndex];
// 获取当前节中的所有表格
TableCollection tables = section.Tables;
// 遍历当前节中的所有表格
for (int tableIndex = 0; tableIndex < tables.Count; tableIndex++)
{
ITable table = tables[tableIndex];
// 用于存储当前表格的所有数据
string tableData = "";
// 遍历表格中的所有行
for (int rowIndex = 0; rowIndex < table.Rows.Count; rowIndex++)
{
TableRow row = table.Rows[rowIndex];
// 遍历行中的所有单元格
for (int cellIndex = 0; cellIndex < row.Cells.Count; cellIndex++)
{
TableCell cell = row.Cells[cellIndex];
// 提取单元格文本(单元格可能包含多个段落)
string cellText = "";
for (int paraIndex = 0; paraIndex < cell.Paragraphs.Count; paraIndex++)
{
cellText += (cell.Paragraphs[paraIndex].Text.Trim() + " ");
}
// 拼接单元格文本,用制表符分隔不同单元格
tableData += cellText.Trim();
if (cellIndex < row.Cells.Count - 1)
{
tableData += "\t";
}
}
// 行结束后换行
tableData += "\n";
}
// 保存表格数据到文本文件)
string filePath = Path.Combine("Tables", $"Section{sectionIndex + 1}_Table{tableIndex + 1}.txt");
File.WriteAllText(filePath, tableData, Encoding.UTF8);
}
}
doc.Close();
}
}
}
代码核心逻辑解析
① 遍历文档结构
Word 文档的逻辑结构是:Document → Section → Table → Row → Cell 。
- 节(Section) :一个文档可以有多个节(如不同页码格式、页眉页脚的区域)。通过
doc.Sections获取。 - 表格(Table) :每个节可以包含多个表格,通过
section.Tables获取。
② 提取单元格文本
单元格 TableCell 内部可能包含多个段落(Paragraph),每个段落可能有不同的格式(加粗、颜色等)。我们只需提取纯文本内容:
- 遍历
cell.Paragraphs,获取每个段落的 Text - 使用
Trim()去除段落首尾空白,避免多余换行。 - 多个段落之间用空格连接,保证可读性。
③ 保存为文本文件
- 每个表格单独保存为一个
.txt文件,文件名包含节索引和表格索引,便于区分。 - 单元格之间用 制表符
\t分隔,行末添加换行符。这种格式可直接复制到 Excel 中粘贴,或者被其他数据分析工具读取。
实用扩展方向
基于本文代码,可以轻松扩展以下功能:
1. 导出为 Excel 文件(使用 Free Spire.XLS)
csharp
using Spire.Xls;
// 将 tableData 的二维数组写入 Workbook
2. 批量处理多个 Word 文档
csharp
string[] files = Directory.GetFiles(@"C:\Docs", "*.docx");
foreach (string file in files)
{
doc.LoadFromFile(file);
// ... 提取逻辑
}
3. 文本清洗与格式化
- 去除特殊符号(如
\r,\n替换为空格) - 统一数字格式(如货币符号、百分比)
- 使用正则表达式过滤无关字符
4. 直接导入数据库
将提取的表格数据转换为 DataTable,然后使用 SqlBulkCopy 批量写入 SQL Server。
总结
通过本文介绍的方法,你可以高效地从 Word 文档中提取表格数据,为后续的数据处理提供便利。相比原生 Office Interop(需要安装 Word 且不稳定),Free Spire.Doc 无需依赖 Office 客户端,运行更轻量、稳定;代码逻辑清晰,便于复用和二次开发。