用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
程序员侠客行几秒前
Mybatis的Executor和缓存体系
java·后端·架构·mybatis
毕设源码-赖学姐几秒前
【开题答辩全过程】以 基于Java的化学实验室信息管理系统为例,包含答辩的问题和答案
java·开发语言
带刺的坐椅1 分钟前
通用流程编排框架,Solon Flow v3.8.0 隆重发布
java·solon·flowable·flow·drools
小王师傅662 分钟前
【轻松入门SpringBoot】actuator健康检查(中)
java·spring boot·spring
时光追逐者3 分钟前
一款基于 .NET 9 构建的企业级 Web RBAC 快速开发框架
前端·c#·.net·.net core
想你依然心痛3 分钟前
【TextIn大模型加速器+火山引擎】打造智能文档处理流水线:从跨国药企手册到金融单据核验的全链路实战
金融·c#·火山引擎
咕噜咕噜啦啦4 分钟前
Java速通(应用程序)
java·开发语言
kingwebo'sZone5 分钟前
win11智能应用控制已阻止此应用
c#
爱学习的小可爱卢11 分钟前
JavaEE进阶——Spring Bean与Java Bean的核心区别
java·后端·java-ee
期待のcode15 分钟前
Java Object 类
java·开发语言