用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
daidaidaiyu8 分钟前
一文学习入门 ThingsBoard 开源物联网平台
java·mqtt·spring
状元岐9 分钟前
C#反射从入门到精通
java·javascript·算法
亚历克斯神11 分钟前
Elasticsearch 全文搜索实战:构建企业级搜索引擎
java·spring·微服务
亚历克斯神12 分钟前
Spring Boot 与 Elasticsearch 8.0 集成
java·spring·微服务
唐青枫16 分钟前
C#.NET ObjectPool 深入解析:对象复用、池化策略与使用边界
c#·.net
星晨雪海2 小时前
Lombok 注解使用场景终极总结
java·数据库·mysql
Stella Blog2 小时前
狂神Java基础学习笔记Day03
java·笔记·学习
zopple3 小时前
四大编程语言对比:PHP、Python、Java与易语言
java·python·php
kaikaile19954 小时前
C# 文件编码转换工具
开发语言·c#
逍遥德4 小时前
Java 锁(线程间)和数据库锁(事务间)对比详解
java·数据库·sql·高并发·锁机制