用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
无名-CODING4 分钟前
SpringMVC处理流程完全指南:从请求到响应的完整旅程
java·后端·spring
瑶山7 分钟前
Spring Cloud微服务搭建三、分布式任务调度XXL-JOB
java·spring cloud·微服务·xxljob
Re.不晚9 分钟前
深入底层理解HashMap——妙哉妙哉的结构!!
java·哈希算法
Serene_Dream13 分钟前
Java 内存区域
java·jvm
爱吃山竹的大肚肚29 分钟前
文件上传大小超过服务器限制
java·数据库·spring boot·mysql·spring
黄昏恋慕黎明29 分钟前
测试模型讲解
java
瑞雪兆丰年兮31 分钟前
[从0开始学Java|第十二天]学生管理系统升级
java·开发语言
弹简特32 分钟前
【JavaSE-网络部分03】网络原理-泛泛介绍各个层次
java·开发语言·网络
周杰伦的稻香32 分钟前
Hexo搭建教程
java·node.js
倔强的石头10632 分钟前
飞算JavaAI如何提升重塑Java开发体验
java·飞算javaai·ai开发工具