用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
你想考研啊6 分钟前
win11配置maven
java·数据库·maven
独自破碎E9 分钟前
LCR001-两数相除
java·开发语言
tkevinjd10 分钟前
5-Web基础
java·spring boot·后端·spring
Eiceblue11 分钟前
通过 C# 解析 HTML:文本提取 + 结构化数据获取
c#·html·.net·visual studio
蜂蜜黄油呀土豆14 分钟前
Java虚拟机垃圾回收机制解析
java·jvm·性能优化·gc·垃圾回收
像少年啦飞驰点、19 分钟前
零基础入门 Spring Boot:从‘Hello World’到可上线的 Web 应用
java·spring boot·web开发·编程入门·后端开发
独处东汉22 分钟前
freertos开发空气检测仪之输入子系统按键驱动测试
android·java·数据库
Cult Of22 分钟前
一个最小可扩展聊天室系统的设计与实现(Java + Swing + TCP)(2)
java·jvm·tcp/ip
allway225 分钟前
统信UOS桌面专业版开启 ROOT权限并设置 SSH 登录
java·数据库·ssh
别会,会就是不问28 分钟前
Junit4下Mockito包的使用
java·junit·单元测试