C# 实现 PDF 页面拆分:单页、指定页精准拆分

在处理 PDF 文档时,"拆分页面"可以说是最常遇到的需求之一。比如:一份几十页的报告,你只想要其中某一章;或者开会发的 PDF 会议纪要,需要按参会者姓名拆成单页分别发邮件;又或者你刚把一份扫描件导出来,希望每一页变成一个独立的 PDF 文件......这些场景我都遇到过。

今天我就用 Free Spire.PDF for .NET 这个免费库,把 C# 里拆分 PDF 的各种姿势都讲一遍。代码都是实际跑过的,你复制过去改改路径就能用。

安装 :在 NuGet 包管理器里搜 FreeSpire.PDF 直接安装就行。这是一个免费社区版,唯一的限制是单次处理不能超过 10 页 ,如果超过 10 页,后面的页会被悄悄截掉(不会报错,但结果会少页)。所以如果你只是偶尔处理小文件,这个库很顺手。


一、先搞清楚原理

拆 PDF 其实就四步:

  1. 把原 PDF 读进来
  2. 决定要拆出哪些页(单页、一个范围、或者抽几页)
  3. 新建一个空的 PDF 对象,把选中的页面"复制"进去
  4. 保存成新文件

Free Spire.PDF 提供了一个 PdfDocument 类,里面的 Pages 集合就像数组一样,你可以按索引取出每一页,然后插入到另一个文档里。下面我会用实际代码演示。


二、最简单的情况:每一页单独存一个 PDF

如果你的目标就是"把一份 PDF 的每一页拆成单独的文件",这个库内置了一个 Split 方法,一行调用就能搞定。

csharp 复制代码
using Spire.Pdf;

namespace SplitPdfDemo
{
    internal class Program
    {
        static void Main(string[] args)
        {
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("D:\\测试文档.pdf");

            // 注意:模板里必须写 {0},这是编号占位符
            // 比如 "page_{0}.pdf" 会生成 page_1.pdf, page_2.pdf ...
            pdf.Split("C:\\output\\page_{0}.pdf", 1);

            pdf.Close();
            Console.WriteLine("拆分完成,请去 output 文件夹查看");
        }
    }
}

一点小经验Split 方法第二个参数 startNumber 我一般就填 1,这样文件名看起来更自然。如果你填 0,第一个文件就会变成 page_0.pdf,容易引起困惑。


三、进阶:每 N 页合并成一个 PDF(比如每 3 页一个文件)

有时候我们不是要"每页一个文件",而是"每几页合成一个文件"。比方说,你把扫描仪设置成了连续进纸,每 3 页是一份合同,那么拆分时就要按 3 页一组来切。

这时候 Split 就不管用了,得我们自己动手循环。

代码

csharp 复制代码
using Spire.Pdf;
using System;

namespace SplitPdf
{
    internal class Program
    {
        static void Main(string[] args)
        {
            string inputFile = "sample.pdf";
            int pagesPerGroup = 3;              // 每3页一组
            string outputPattern = "Group_{0}.pdf";

            PdfDocument source = new PdfDocument();
            source.LoadFromFile(inputFile);

            int totalPages = source.Pages.Count;
            int groupCount = (int)Math.Ceiling((double)totalPages / pagesPerGroup);

            for (int g = 0; g < groupCount; g++)
            {
                PdfDocument groupDoc = new PdfDocument();

                int startIdx = g * pagesPerGroup;                // 起始索引(0基)
                int endIdx = Math.Min(startIdx + pagesPerGroup - 1, totalPages - 1);

                for (int i = startIdx; i <= endIdx; i++)
                {
                    groupDoc.InsertPage(source, source.Pages[i]);
                }

                string outputFile = string.Format(outputPattern, g + 1);
                groupDoc.SaveToFile(outputFile);
                groupDoc.Close();

                Console.WriteLine($"已生成:{outputFile}");
            }

            source.Close();
            Console.WriteLine($"全部完成,共生成 {groupCount} 个文件");
        }
    }
}

四、其他常用拆分玩法

1. 提取不连续的几页(例如第 2、5、7 页)

有时候你只想抽几页出来做成一个新 PDF,比如从合同里只把签字页拿出来。

csharp 复制代码
PdfDocument source = new PdfDocument();
source.LoadFromFile("合同.pdf");

PdfDocument result = new PdfDocument();
int[] wantedPages = { 2, 5, 7 };   // 这里的数字是页码(从1开始)

foreach (int pageNum in wantedPages)
{
    // 注意:Pages 集合的索引是从0开始的,所以要减1
    if (pageNum >= 1 && pageNum <= source.Pages.Count)
    {
        result.InsertPage(source, source.Pages[pageNum - 1]);
    }
    else
    {
        Console.WriteLine($"警告:第{pageNum}页不存在,已跳过");
    }
}

result.SaveToFile("提取的签字页.pdf");
result.Close();
source.Close();

一个小坑:如果你传入的页码超出范围,代码不会自动报错,只是那页不会被复制。所以我加了一个 if 判断并打印警告,避免你"以为复制了其实没有"。

2. 提取所有奇数页 / 偶数页

比如一份双面扫描的文档,你想把奇数页和偶数页分开处理。

csharp 复制代码
PdfDocument source = new PdfDocument();
source.LoadFromFile("双面扫描件.pdf");

PdfDocument oddPages = new PdfDocument();   // 奇数页(第1、3、5...)
PdfDocument evenPages = new PdfDocument();  // 偶数页(第2、4、6...)

for (int i = 0; i < source.Pages.Count; i++)   // i 是0基索引
{
    // 第1页的索引是0,第2页索引是1,依此类推
    if (i % 2 == 0)
        oddPages.InsertPage(source, source.Pages[i]);
    else
        evenPages.InsertPage(source, source.Pages[i]);
}

oddPages.SaveToFile("奇数页.pdf");
evenPages.SaveToFile("偶数页.pdf");

oddPages.Close();
evenPages.Close();
source.Close();

这里容易混淆的是:索引 i=0 对应第1页(奇数页) ,所以 i%2==0 是奇数页。


五、和其他库简单对比一下(个人感受)

许可 优点 缺点
Free Spire.PDF 免费社区版 API 很直观,不需要装 Adobe,页面复制时注释、表单、书签都保留得不错。 10页限制,超过就截断(这是硬伤)
iTextSharp AGPL 功能最强,工业级。 AGPL 许可证对商业项目很不友好,想商用必须买授权,而且配置略繁琐。
PdfSharp MIT 完全免费无限制,轻量。 页面复制的效果一般,有些复杂元素(比如某些字体或透明度)会丢失。

我个人建议:如果你只是偶尔处理一些 ≤10 页的 PDF,Free Spire.PDF 最省心。如果经常处理几十页的文件又不想花钱,可以试试 PdfSharp,但要做好"部分样式丢失"的心理准备。


六、总结

需求 使用方法 核心 API
每页单独保存 pdf.Split("pattern_{0}.pdf", 1) 内置 Split
每 N 页合为一个文件 手动循环 + InsertPage PdfDocument.InsertPage
按指定页码提取 手动筛选 + InsertPage 同上

掌握上述模式后,您可以灵活组合出满足各种业务规则的 PDF 拆分逻辑。代码均已在实际项目中验证,可直接复用。