用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
YuTaoShao几秒前
【LeetCode 每日一题】3721. 最长平衡子数组 II ——(解法二)分块
java·算法·leetcode
m0_528749004 分钟前
linux编程----目录流
java·前端·数据库
北极象5 分钟前
Flying-Saucer HTML到PDF渲染引擎核心流程分析
前端·pdf·html
spencer_tseng8 分钟前
Thumbnail display
java·minio
jay神11 分钟前
基于SpringBoot的英语自主学习系统
java·spring boot·后端·学习·毕业设计
sww_102613 分钟前
Spring AI 可观测性实战
java·人工智能·spring
qinaoaini14 分钟前
Spring 简介
java·后端·spring
CreasyChan14 分钟前
unity C# 实现屏蔽敏感词
unity·c#·游戏引擎
高山上有一只小老虎16 分钟前
java中常用的日期方法
java
Java.慈祥19 分钟前
速通-微信小程序 5Day
java·微信小程序·小程序·npm