使用C#代码替换 PDF 文档中的文本

人们经常需要替换 PDF 文档中的文本,原因多种多样。例如,修正错误或拼写问题、更新过时的信息、针对特定受众或用途调整内容,或满足法律和合规要求。通过替换 PDF 中的文本,可以提高内容的准确性,保持文档的一致性,并增强信息的实用性和可读性。

本文将介绍如何使用 C# 替换 PDF 文档中的文本。

安装 PDF 处理库

首先,需要在 .NET 项目中添加相关 PDF 处理库的 DLL 文件作为引用。您可以通过下载安装包获取 DLL 文件,也可以直接通过 NuGet 安装。

cs 复制代码
PM> Install-Package Spire.PDF

在 C# 中替换指定 PDF 页面中的文本

PDF 处理库提供了用于文本替换的方法,可将页面中所有匹配的目标文本替换为新的内容。以下是在 C# 中替换指定 PDF 页面文本的基本步骤:

  1. 创建 PdfDocument 对象。
  2. 加载指定路径的 PDF 文件。
  3. 从文档中获取指定页面。
  4. 创建文本替换选项对象,并通过相关属性设置替换方式。
  5. 创建文本替换器对象,并应用替换选项。
  6. 调用文本替换方法,将页面中所有目标文本替换为新文本。
  7. 将修改后的文档保存为新的 PDF 文件。

完整示例代码如下:

cs 复制代码
using Spire.Pdf;
using Spire.Pdf.Texts;

namespace ReplaceTextInPage
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建 PdfDocument 对象
            PdfDocument doc = new PdfDocument();

            // 加载 PDF 文件
            doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\Input.pdf");

            // 创建 PdfTextReplaceOptions 对象
            PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

            // 设置文本替换选项
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.IgnoreCase;
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.WholeWord;
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.AutofitWidth;

            // 获取指定页面
            PdfPageBase page = doc.Pages[0];

            // 基于页面创建 PdfTextReplacer 对象
            PdfTextReplacer textReplacer = new PdfTextReplacer(page);

            // 应用替换选项
            textReplacer.Options = textReplaceOptions;

            // 将所有目标文本替换为新文本
            textReplacer.ReplaceAllText(".NET Framework", "New Content");

            // 将文档保存为新的 PDF 文件
            doc.SaveToFile("ReplaceTextInPage.pdf");

            // 释放资源
            doc.Dispose();
        }
    }
}

在 C# 中替换整个 PDF 文档中的文本

如果需要将整个 PDF 文档中的目标文本全部替换为新内容,可以遍历文档中的每一页,并在每个页面上执行文本替换操作。

以下是在 C# 中替换整个 PDF 文档文本的基本步骤:

  1. 创建 PdfDocument 对象。
  2. 加载指定路径的 PDF 文件。
  3. 创建文本替换选项对象,并设置替换方式。
  4. 遍历文档中的所有页面。
  5. 基于当前页面创建文本替换器对象,并应用替换选项。
  6. 调用文本替换方法,将页面中的目标文本替换为新文本。
  7. 将修改后的文档保存为新的 PDF 文件。

完整示例代码如下:

cs 复制代码
using Spire.Pdf;
using Spire.Pdf.Texts;

namespace ReplaceInEntireDocument
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建 PdfDocument 对象
            PdfDocument doc = new PdfDocument();

            // 加载 PDF 文件
            doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\Input.pdf");

            // 创建 PdfTextReplaceOptions 对象
            PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

            // 设置文本替换选项
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.IgnoreCase;
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.WholeWord;
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.AutofitWidth;

            for (int i = 0; i < doc.Pages.Count; i++)
            {
                // 获取当前页面
                PdfPageBase page = doc.Pages[i];

                // 基于页面创建 PdfTextReplacer 对象
                PdfTextReplacer textReplacer = new PdfTextReplacer(page);

                // 应用替换选项
                textReplacer.Options = textReplaceOptions;

                // 将所有目标文本替换为新文本
                textReplacer.ReplaceAllText(".NET Framework", "New Content");
            }

            // 将文档保存为新的 PDF 文件
            doc.SaveToFile("ReplaceTextInDocument.pdf");

            // 释放资源
            doc.Dispose();
        }
    }
}

在 C# 中替换目标文本的首次出现内容

除了替换页面中的所有匹配文本外,还可以仅替换目标文本第一次出现的位置。这可以通过 PdfTextReplacer 类的 ReplaceText() 方法实现。

以下是在 C# 中替换目标文本首次出现内容的基本步骤:

  1. 创建 PdfDocument 对象。
  2. 加载指定路径的 PDF 文件。
  3. 从文档中获取指定页面。
  4. 创建文本替换选项对象,并设置替换方式。
  5. 创建文本替换器对象,并应用替换选项。
  6. 调用 ReplaceText() 方法,将页面中首次出现的目标文本替换为新文本。
  7. 将修改后的文档保存为新的 PDF 文件。

完整示例代码如下:

cs 复制代码
using Spire.Pdf;
using Spire.Pdf.Texts;

namespace ReplaceFirstOccurance
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建 PdfDocument 对象
            PdfDocument doc = new PdfDocument();

            // 加载 PDF 文件
            doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\Input.pdf");

            // 创建 PdfTextReplaceOptions 对象
            PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

            // 设置文本替换选项
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.IgnoreCase;
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.WholeWord;
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.AutofitWidth;

            // 获取指定页面
            PdfPageBase page = doc.Pages[1];

            // 基于页面创建 PdfTextReplacer 对象
            PdfTextReplacer textReplacer = new PdfTextReplacer(page);

            // 应用替换选项
            textReplacer.Options = textReplaceOptions;

            // 替换目标文本首次出现的内容
            textReplacer.ReplaceText(".NET Framework", "New Content");

            // 将文档保存为新的 PDF 文件
            doc.SaveToFile("ReplaceFirstOccurance.pdf");

            // 释放资源
            doc.Dispose();
        }
    }
}

在 C# 中基于正则表达式替换 PDF 文本

正则表达式是一种功能强大的文本匹配模式,可用于查找和处理符合特定规则的内容。借助 PDF 处理库,可以通过正则表达式在 PDF 中搜索指定文本模式,并将其替换为新的内容。

以下是在 PDF 中基于正则表达式替换文本的基本步骤:

  1. 创建 PdfDocument 对象。
  2. 加载指定路径的 PDF 文件。
  3. 从文档中获取指定页面。
  4. 创建 PdfTextReplaceOptions 对象。
  5. 将替换类型设置为 Regex,以启用正则表达式匹配。
  6. 创建文本替换器对象,并应用替换选项。
  7. 调用 ReplaceAllText() 方法,查找并替换符合指定正则表达式的文本。
  8. 将修改后的文档保存为新的 PDF 文件。

完整示例代码如下:

cs 复制代码
using Spire.Pdf;
using Spire.Pdf.Texts;

namespace ReplaceUsingRegularExpression
{
    class Program
    {
        static void Main(string[] args)
        {
            // 创建 PdfDocument 对象
            PdfDocument doc = new PdfDocument();

            // 加载 PDF 文件
            doc.LoadFromFile("C:\\Users\\Administrator\\Desktop\\Input.pdf");

            // 创建 PdfTextReplaceOptions 对象
            PdfTextReplaceOptions textReplaceOptions = new PdfTextReplaceOptions();

            // 将替换类型设置为 Regex
            textReplaceOptions.ReplaceType = PdfTextReplaceOptions.ReplaceActionType.Regex;

            // 获取指定页面
            PdfPageBase page = doc.Pages[1];

            // 基于页面创建 PdfTextReplacer 对象
            PdfTextReplacer textReplacer = new PdfTextReplacer(page);

            // 应用替换选项
            textReplacer.Options = textReplaceOptions;

            // 指定正则表达式
            string regularExpression = @"\bC\w*?R\b";

            // 将所有匹配正则表达式的内容替换为新文本
            textReplacer.ReplaceAllText(regularExpression, "NEW");

            // 将文档保存为新的 PDF 文件
            doc.SaveToFile("ReplaceWithRegularExpression.pdf");

            // 释放资源
            doc.Dispose();
        }
    }
}

总结

这篇文章主要介绍了在 C# 中使用正则表达式对 PDF 文本进行替换的方法。通过将替换模式设置为 Regex,可以在 PDF 页面中按规则匹配特定文本,而不仅仅是固定字符串,从而实现更灵活的文本处理。

在实现过程中,程序先加载 PDF 文档并获取指定页面,然后创建文本替换器并应用正则表达式规则,最后将匹配到的内容替换为新文本并保存文件。这种方式适用于批量修改具有特定格式的文本内容。

相关推荐
weixin_397574093 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
Metaphor6923 天前
使用 Python 将 PDF 转换为 HTML
python·pdf·html
2601_961845153 天前
粉笔行测5000题电子版|pdf|解析
pdf·新媒体运营·github·个人开发·内容运营·规格说明书·极限编程
Sour4 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
狂奔solar4 天前
OpenDataLoader-PDF 做 PDF 解析可视化调试器
pdf·rag 预处理
chatexcel4 天前
ChatExcel Max使用教程:图片、PDF、网页与复杂Excel的一站式数据分析
数据分析·pdf·excel
绘梨衣5474 天前
PDF表格解析知识总结
开发语言·python·pdf
qq_546937274 天前
Excel批量转PDF_Word_图片,支持自动合并报表,效率翻倍。
pdf·word·excel
zyplayer-doc4 天前
企业知识库安全与权限管理完全指南:从加密到审计的六层防护
人工智能·安全·pdf·编辑器·创业创新
易鹤鹤.4 天前
pdf标注高亮
pdf