用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
你怎么知道我是队长15 小时前
C语言---文件读写
java·c语言·开发语言
xb113215 小时前
C#委托详解
开发语言·c#
wszy180916 小时前
外部链接跳转:从 App 打开浏览器的正确姿势
java·javascript·react native·react.js·harmonyos
期待のcode16 小时前
认识Java虚拟机
java·开发语言·jvm
raining_peidx16 小时前
xxljob源码
java·开发语言
肥猪猪爸16 小时前
双重检查锁(DCL)与 volatile 的关键作用
java·开发语言·单例模式
yaoxin52112316 小时前
289. Java Stream API - 从字符串的字符创建 Stream
java·开发语言
浮游本尊16 小时前
Java学习第35天 - 分布式系统深入与大数据处理
java
2301_7806698616 小时前
Set集合、HashSet集合的底层原理
java
你曾经是少年16 小时前
Java 关键字
java