用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
掘金者阿豪17 小时前
金仓数据库KingbaseES与MyBatis-Plus整合实践:电商系统开发实战
java·后端
CodeCraft Studio17 小时前
CAD文件处理控件Aspose.CAD教程:在 Python 中将 SVG 转换为 PDF
开发语言·python·pdf·svg·cad·aspose·aspose.cad
c#上位机17 小时前
wpf之MVVM中只读属性更新界面
c#·wpf·mvvm
消失的旧时光-194317 小时前
人脸跟随 ( Channel 实现(缓存5条数据 + 2度过滤 + 平滑移动))
android·java·开发语言·kotlin
默默coding的程序猿17 小时前
1.单例模式有哪几种常见的实现方式?
java·开发语言·spring boot·spring·单例模式·设计模式·idea
编程岁月17 小时前
java面试-0136-BIO、NIO、AIO区别?
java·面试·nio
春生野草17 小时前
部署项目到Tomcat
java·tomcat
安逸sgr18 小时前
SpringMVC启动流程
java·jvm·spring·spring cloud·eclipse·tomcat·maven
lifallen18 小时前
从Apache Doris 学习 HyperLogLog
java·大数据·数据仓库·算法·apache
fire-flyer18 小时前
maven-jlink-plugin入门
java·maven