用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
独自破碎E6 分钟前
Leetcode1499满足不等式的最大值
java·开发语言
最贪吃的虎12 分钟前
Java基础之泛型
java·运维·jvm·分布式·后端
05大叔1 小时前
MybatisPlus
java·服务器·前端
我爱娃哈哈1 小时前
SpringBoot集成:5分钟实现HTML转PDF功能
spring boot·pdf·html
henreash1 小时前
C#调用F#的MailboxProcessor
开发语言·c#
未来之窗软件服务2 小时前
幽冥大陆(八十九 ) 自动化在线打包任意平台软件 —东方仙盟练气期
开发语言·c#·自动化·仙盟创梦ide·东方仙盟·在线打包
java1234_小锋2 小时前
RocketMQ的Producer是如何发送消息的?
java·rocketmq·java-rocketmq
橘色的狸花猫2 小时前
浪漫色彩下的博客系统
java·vue
墨雪不会编程2 小时前
C++【string篇2】:从零基础开始到熟悉使用string类
java·开发语言·c++
kylezhao20192 小时前
第四节、C# 上位机面向对象编程详解(工控硬件继承实战版)
c#·工控上位机