用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
金牌归来发现妻女流落街头4 小时前
【从SpringBoot到SpringCloud】
java·spring boot·spring cloud
毅炼4 小时前
Java 基础常见问题总结(4)
java·后端
GR2342345 小时前
2025年影视仓TV+手机官方版 内置地址源支持高清直播
java·智能手机·软件
kylezhao20195 小时前
C# 中的 SOLID 五大设计原则
开发语言·c#
程序员清风5 小时前
北京回长沙了,简单谈谈感受!
java·后端·面试
何中应5 小时前
请求头设置没有生效
java·后端
啦啦啦_99995 小时前
Redis-5-doFormatAsync()方法
数据库·redis·c#
亓才孓5 小时前
[JDBC]批处理
java
春日见6 小时前
车辆动力学:前后轮车轴
java·开发语言·驱动开发·docker·计算机外设
宋小黑6 小时前
JDK 6到25 全版本网盘合集 (Windows + Mac + Linux)
java·后端