用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
程序员清风15 分钟前
用了三年AI,我总结出高效使用AI的3个习惯!
java·后端·面试
beata1 小时前
Java基础-13: Java反射机制详解:原理、使用与实战示例
java·后端
用户0332126663671 小时前
Java 使用 Spire.Presentation 在 PowerPoint 中添加或删除表格行与列
java
mudtools2 小时前
搭建一套.net下能落地的飞书考勤系统
后端·c#·.net
Seven973 小时前
Condition底层机制剖析:多线程等待与通知机制
java
玩泥巴的12 小时前
搭建一套.net下能落地的飞书考勤系统
c#·.net·二次开发·飞书
怒放吧德德13 小时前
Spring Boot 实战:RSA+AES 接口全链路加解密(防篡改 / 防重放)
java·spring boot·后端
唐宋元明清218814 小时前
.NET 本地Db数据库-技术方案选型
windows·c#
郑州光合科技余经理16 小时前
代码展示:PHP搭建海外版外卖系统源码解析
java·开发语言·前端·后端·系统架构·uni-app·php
lindexi16 小时前
dotnet DirectX 通过可等待交换链降低输入渲染延迟
c#·directx·d2d·direct2d·vortice