用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
雪豹阿伟1 小时前
6.C# —— 类与对象、数据类型、方法详解
c#·上位机
oddsand11 小时前
Redis网络模型
java·数据库·redis
皮卡祺q2 小时前
【redies0-导论】分布式系统的演进-引进redis原因
java·数据库·redis
roman_日积跬步-终至千里2 小时前
如何分析复杂架构:一套真正能落地的方法
java·开发语言·架构
武子康2 小时前
Java-02 深入浅出MyBatis 3 快速入门:环境配置、项目创建与 CRUD 操作
java·后端
Don.TIk2 小时前
ChapterOne-搭建项目骨架
java·spring·spring cloud·mybatis
Don.TIk2 小时前
ChaperTwo-整合 SaToken 实现 JWT 登录功能
java·开发语言
qq_2518364572 小时前
基于java Web汽车销售管理系统设计与实现
java·前端·汽车
南极企鹅2 小时前
事务&@Transactional注解
java·数据库·spring·oracle·mybatis
yaoxin5211232 小时前
406. Java 文件操作基础 - 字符与二进制流
java·开发语言·python