用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
摇滚侠19 分钟前
针对主键索引的 for update 操作有什么用
java
RainCity38 分钟前
Java Swing 自定义组件库分享(六)
java·笔记·后端
xuanjiong42 分钟前
DDD架构Repository仓储数据流转全链路详解:Domain与其他层的数据流转
java·系统架构
吴声子夜歌1 小时前
Java——类加载机制
java·开发语言·python
Xiacqi11 小时前
Java 中 String、StringBuffer、StringBuilder 的区别
java
Xiacqi11 小时前
Java 常用集合框架手册
java
唐青枫1 小时前
C#.NET YARP 跨域配置详解:网关统一处理 CORS
c#·.net
笨蛋不要掉眼泪1 小时前
Java并发编程:线程的创建和运行
java·开发语言·jvm
九伯都1 小时前
java编写 agent 入门案例
java·开发语言
环流_1 小时前
redis:持久化rdb
java·数据库·redis