用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
what丶k3 分钟前
深入理解Java NIO:从原理到实战的全方位解析
java·开发语言·nio
PfCoder4 分钟前
C# 中的定时器 System.Threading.Timer用法
开发语言·c#
血小板要健康6 分钟前
笔试面经2(上)(纸质版)
java·开发语言
缺点内向7 分钟前
Word 自动化处理:如何用 C# 让指定段落“隐身”?
开发语言·c#·自动化·word·.net
忧郁的Mr.Li12 分钟前
JVM-类加载子系统、运行时数据区 详解
java·jvm
shehuiyuelaiyuehao17 分钟前
12异常知识点
java
好好研究18 分钟前
MobaXterm远程连接云服务器(Centos环境)及配置jdk、Tomcat、MySQL环境
java·服务器·mysql·jdk·tomcat·aliyun服务器
KvPiter18 分钟前
Clawdbot 中文汉化版 接入微信、飞书
人工智能·c#
让我上个超影吧22 分钟前
SpringAI会话记忆实现——基于MYSQL进行存储
java·spring boot·ai
m0_7482331730 分钟前
Laravel vs ThinkPHP:谁更适合你?
java·开发语言