一个PDF处理利器的.Net开源项目

在项目开发中,处理PDF文件是一个非常常见的需求,之前也推荐几个,今天继续给大家推荐一个强大且易于使用的开源库,专门用于处理PDF文件,它提供了一系列功能强大的工具,帮助开发人员轻松地解析、修改和创建PDF文件。

01 项目简介

PdfPig是一个基于.NET开发的开源项目,是一个强大PDF处理库,核心功能有:

1、支持提取PDF文档的文字的位置和大小,从而能够获取文档的文本;

2、支持从PDF文档搜索图片;

3、支持读取PDF注释、PDF表单、嵌入的文档和超链接;

4、支持对PDF文档元数据的访问;

5、支持PDF文件创建,以及PDF写入;

6、支持通过密码访问加密文件的内容;

7、文档布局分析:还提供了文档布局分析工具,如Recursive XY Cut、Document Spectrum和Nearest Neighbour算法等。它还支持将页面内容导出为Alto、PageXML和hOcr格式;

8、不直接支持表格,但可以使用Tabula Sharp或Camelot Sharp进行操作。

02 使用方法

1、写入PDF

复制代码
using UglyToad.PdfPig.Content;
using UglyToad.PdfPig.Core;
using UglyToad.PdfPig.Writer;

PdfDocumentBuilder builder = new PdfDocumentBuilder();
PdfPageBuilder page = builder.AddPage(PageSize.A4);


// 读取宋体字体文件到字节数组  
byte[] simSunFontBytes;
using (FileStream fontFileStream = File.OpenRead("C:\\Windows\\Fonts\\STSONG.TTF"))
{
    simSunFontBytes = new byte[fontFileStream.Length];
    fontFileStream.Read(simSunFontBytes, 0, simSunFontBytes.Length);
}
// 添加支持中文的字体  
PdfDocumentBuilder.AddedFont font = builder.AddTrueTypeFont(simSunFontBytes);

//写入
page.AddText("你好,这是一个PDF文档。", 12, new PdfPoint(25, 520), font);
byte[] b = builder.Build();

// 将PDF数据写入到文件中  
File.WriteAllBytes("output.pdf", b);

效果如下:

2、读取PDF

复制代码
using UglyToad.PdfPig;
using UglyToad.PdfPig.Content;

using (PdfDocument document = PdfDocument.Open(@"output.pdf"))
{
    foreach (Page page in document.GetPages())
    {
        IEnumerable<Word> words = page.GetWords();
        foreach(Word word in words)
        {
            Console.WriteLine(word.Text);
        }
    }
}

效果如下:

03 项目地址

https://github.com/UglyToad/PdfPig

更多开源项目: https://github.com/bianchenglequ/NetCodeTop

我是编程乐趣,一个.Net开发经验老程序员,欢迎"关注"我,每天为你分享开源项目和编程知识。

也欢迎加入【.Net技术编程交流社区】,和大家共同学习交流!,点击加入https://bbs.csdn.net/topics/613465368

  • End -
相关推荐
齐鲁大虾6 小时前
新人编程语言选择指南
javascript·c++·python·c#
wenha6 小时前
踩坑记录:UTF-8、UTF-8-BOM 与 GB2312 读取的乱码真相
utf-8·.net·编码·utf-8-bom
加号37 小时前
【C#】 WebAPI 接口设计与实现指南
开发语言·c#
chutao7 小时前
EasyPDF 转图片(EasyPdf2Image)—— 本地安全实用的PDF与图片双向互转工具
安全·职场和发展·pdf·创业创新·学习方法
unicrom_深圳市由你创科技7 小时前
上位机开发常用的语言 / 框架有哪些?
c++·python·c#
xiaoshuaishuai810 小时前
C# ZLibrary数字资源分发
开发语言·windows·c#
王莎莎-MinerU11 小时前
MinerU 生态全接入:LangChain、Dify、RAGFlow、LlamaIndex 六大框架完整集成指南(2026)
计算机视觉·chatgpt·langchain·pdf·github·aigc
Eiceblue11 小时前
C# 实现 XLS 与 XLSX 格式双向互转(无需依赖 Office)
开发语言·c#·visual studio
程序员老邢12 小时前
【技术底稿 18】FTP 文件处理 + LibreOffice Word 转 PDF 在线预览 + 集群乱码终极排查全记录
java·经验分享·后端·pdf·word·springboot
aini_lovee12 小时前
基于C#的三菱PLC串口通信实现方案
服务器·网络·c#