用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
!停18 小时前
C++入门基础
java·开发语言·c++
赵文宇(温玉)18 小时前
OpenClaw3.13已经发布,该如何快速升级
java·开发语言
Java爱好狂.18 小时前
IT界有哪些优秀的高并发解决方案?
java·高并发·多线程·java面试·java面试题·后端开发·java八股文
代码雕刻家18 小时前
3.3.Maven-idea集成-配置及创建Maven项目
java·maven·intellij-idea
爆更小哇18 小时前
JMeter配置和使用入门指南
java·开发语言·测试工具·jmeter·自动化
kaico201818 小时前
jenkins值之job的配置
java·jenkins
xixixiLucky18 小时前
TreeSet |TreeMap|jar包|web包易混淆解答
java·开发语言
唐青枫18 小时前
C#.NET ReadOnlySequence 深入解析:多段内存遍历与零拷贝协议解析
c#·.net
Volunteer Technology18 小时前
核心框架源码常见问题(下)
java·开发语言·spring
兆子龙18 小时前
React useTransition:让 UI 更新更丝滑的并发特性
java·javascript