用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
码出财富5 小时前
SpringBoot 内置的 20 个高效工具类
java·spring boot·spring cloud·java-ee
我是小疯子665 小时前
Python变量赋值陷阱:浅拷贝VS深拷贝
java·服务器·数据库
森叶5 小时前
Java 比 Python 高性能的原因:重点在高并发方面
java·开发语言·python
二哈喇子!5 小时前
Eclipse中导入外部jar包
java·eclipse·jar
微露清风5 小时前
系统性学习C++-第二十二讲-C++11
java·c++·学习
进阶小白猿6 小时前
Java技术八股学习Day20
java·开发语言·学习
gis开发6 小时前
【无标题】
java·前端·javascript
Wpa.wk6 小时前
性能测试 - 搭建线上的性能测试环境参考逻辑图
java·经验分享·测试工具·jmeter·性能测试
代码村新手6 小时前
C++-类和对象(中)
java·开发语言·c++
葵花楹7 小时前
【JAVA课设】【游戏社交系统】
java·开发语言·游戏