在处理 PDF 文档时,"拆分页面"可以说是最常遇到的需求之一。比如:一份几十页的报告,你只想要其中某一章;或者开会发的 PDF 会议纪要,需要按参会者姓名拆成单页分别发邮件;又或者你刚把一份扫描件导出来,希望每一页变成一个独立的 PDF 文件......这些场景我都遇到过。
今天我就用 Free Spire.PDF for .NET 这个免费库,把 C# 里拆分 PDF 的各种姿势都讲一遍。代码都是实际跑过的,你复制过去改改路径就能用。
安装 :在 NuGet 包管理器里搜
FreeSpire.PDF直接安装就行。这是一个免费社区版,唯一的限制是单次处理不能超过 10 页 ,如果超过 10 页,后面的页会被悄悄截掉(不会报错,但结果会少页)。所以如果你只是偶尔处理小文件,这个库很顺手。
一、先搞清楚原理
拆 PDF 其实就四步:
- 把原 PDF 读进来
- 决定要拆出哪些页(单页、一个范围、或者抽几页)
- 新建一个空的 PDF 对象,把选中的页面"复制"进去
- 保存成新文件
Free Spire.PDF 提供了一个 PdfDocument 类,里面的 Pages 集合就像数组一样,你可以按索引取出每一页,然后插入到另一个文档里。下面我会用实际代码演示。
二、最简单的情况:每一页单独存一个 PDF
如果你的目标就是"把一份 PDF 的每一页拆成单独的文件",这个库内置了一个 Split 方法,一行调用就能搞定。
csharp
using Spire.Pdf;
namespace SplitPdfDemo
{
internal class Program
{
static void Main(string[] args)
{
PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile("D:\\测试文档.pdf");
// 注意:模板里必须写 {0},这是编号占位符
// 比如 "page_{0}.pdf" 会生成 page_1.pdf, page_2.pdf ...
pdf.Split("C:\\output\\page_{0}.pdf", 1);
pdf.Close();
Console.WriteLine("拆分完成,请去 output 文件夹查看");
}
}
}
一点小经验 :Split 方法第二个参数 startNumber 我一般就填 1,这样文件名看起来更自然。如果你填 0,第一个文件就会变成 page_0.pdf,容易引起困惑。
三、进阶:每 N 页合并成一个 PDF(比如每 3 页一个文件)
有时候我们不是要"每页一个文件",而是"每几页合成一个文件"。比方说,你把扫描仪设置成了连续进纸,每 3 页是一份合同,那么拆分时就要按 3 页一组来切。
这时候 Split 就不管用了,得我们自己动手循环。
代码
csharp
using Spire.Pdf;
using System;
namespace SplitPdf
{
internal class Program
{
static void Main(string[] args)
{
string inputFile = "sample.pdf";
int pagesPerGroup = 3; // 每3页一组
string outputPattern = "Group_{0}.pdf";
PdfDocument source = new PdfDocument();
source.LoadFromFile(inputFile);
int totalPages = source.Pages.Count;
int groupCount = (int)Math.Ceiling((double)totalPages / pagesPerGroup);
for (int g = 0; g < groupCount; g++)
{
PdfDocument groupDoc = new PdfDocument();
int startIdx = g * pagesPerGroup; // 起始索引(0基)
int endIdx = Math.Min(startIdx + pagesPerGroup - 1, totalPages - 1);
for (int i = startIdx; i <= endIdx; i++)
{
groupDoc.InsertPage(source, source.Pages[i]);
}
string outputFile = string.Format(outputPattern, g + 1);
groupDoc.SaveToFile(outputFile);
groupDoc.Close();
Console.WriteLine($"已生成:{outputFile}");
}
source.Close();
Console.WriteLine($"全部完成,共生成 {groupCount} 个文件");
}
}
}
四、其他常用拆分玩法
1. 提取不连续的几页(例如第 2、5、7 页)
有时候你只想抽几页出来做成一个新 PDF,比如从合同里只把签字页拿出来。
csharp
PdfDocument source = new PdfDocument();
source.LoadFromFile("合同.pdf");
PdfDocument result = new PdfDocument();
int[] wantedPages = { 2, 5, 7 }; // 这里的数字是页码(从1开始)
foreach (int pageNum in wantedPages)
{
// 注意:Pages 集合的索引是从0开始的,所以要减1
if (pageNum >= 1 && pageNum <= source.Pages.Count)
{
result.InsertPage(source, source.Pages[pageNum - 1]);
}
else
{
Console.WriteLine($"警告:第{pageNum}页不存在,已跳过");
}
}
result.SaveToFile("提取的签字页.pdf");
result.Close();
source.Close();
一个小坑:如果你传入的页码超出范围,代码不会自动报错,只是那页不会被复制。所以我加了一个 if 判断并打印警告,避免你"以为复制了其实没有"。
2. 提取所有奇数页 / 偶数页
比如一份双面扫描的文档,你想把奇数页和偶数页分开处理。
csharp
PdfDocument source = new PdfDocument();
source.LoadFromFile("双面扫描件.pdf");
PdfDocument oddPages = new PdfDocument(); // 奇数页(第1、3、5...)
PdfDocument evenPages = new PdfDocument(); // 偶数页(第2、4、6...)
for (int i = 0; i < source.Pages.Count; i++) // i 是0基索引
{
// 第1页的索引是0,第2页索引是1,依此类推
if (i % 2 == 0)
oddPages.InsertPage(source, source.Pages[i]);
else
evenPages.InsertPage(source, source.Pages[i]);
}
oddPages.SaveToFile("奇数页.pdf");
evenPages.SaveToFile("偶数页.pdf");
oddPages.Close();
evenPages.Close();
source.Close();
这里容易混淆的是:索引 i=0 对应第1页(奇数页) ,所以 i%2==0 是奇数页。
五、和其他库简单对比一下(个人感受)
| 库 | 许可 | 优点 | 缺点 |
|---|---|---|---|
| Free Spire.PDF | 免费社区版 | API 很直观,不需要装 Adobe,页面复制时注释、表单、书签都保留得不错。 | 10页限制,超过就截断(这是硬伤) |
| iTextSharp | AGPL | 功能最强,工业级。 | AGPL 许可证对商业项目很不友好,想商用必须买授权,而且配置略繁琐。 |
| PdfSharp | MIT | 完全免费无限制,轻量。 | 页面复制的效果一般,有些复杂元素(比如某些字体或透明度)会丢失。 |
我个人建议:如果你只是偶尔处理一些 ≤10 页的 PDF,Free Spire.PDF 最省心。如果经常处理几十页的文件又不想花钱,可以试试 PdfSharp,但要做好"部分样式丢失"的心理准备。
六、总结
| 需求 | 使用方法 | 核心 API |
|---|---|---|
| 每页单独保存 | pdf.Split("pattern_{0}.pdf", 1) |
内置 Split |
| 每 N 页合为一个文件 | 手动循环 + InsertPage |
PdfDocument.InsertPage |
| 按指定页码提取 | 手动筛选 + InsertPage |
同上 |
掌握上述模式后,您可以灵活组合出满足各种业务规则的 PDF 拆分逻辑。代码均已在实际项目中验证,可直接复用。