用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
铁皮哥14 小时前
【力扣题解】LeetCode 25. K 个一组翻转链表
java·数据结构·windows·python·算法·leetcode·链表
小新同学^O^14 小时前
简单学习 --> 单例模式
java·学习·多线程
Henray202414 小时前
LRU缓存设计与实现
java·面试
The Shio14 小时前
OptiByte 操练场:面向 IoT/嵌入式的协议可视化调试工具
网络·嵌入式硬件·物联网·c#·.net·业界资讯·iot
甲方大人请饶命14 小时前
SSM-基础
java·数据库·spring
谷雨不太卷14 小时前
Linux基础IO
java·开发语言
小新同学^O^14 小时前
简单学习 --> 文件IO
java·学习·文件io
吴声子夜歌15 小时前
Java——Arrays
java·算法·排序算法
fanzhonghong15 小时前
javaWeb开发之Maven高级
java·开发语言·spring boot·spring cloud·私服
xu_ws15 小时前
spring通过三级缓存解决循环依赖
java·spring·缓存·循环依赖