用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
阿维的博客日记16 小时前
线程任务执行报错后,线程会不会挂掉,Java线程池
java·线程池
Hwang25217 小时前
Spring 框架- 容器单例池的理解
java
yh弓长17 小时前
算法积累笔记
java·算法
LeocenaY17 小时前
C/C++ 面试题总结
java·c++·面试
雨落在了我的手上17 小时前
初识java(十一):继承
java·开发语言
XS03010617 小时前
MyBatis关联映射
java·mybatis
码农小旋风17 小时前
IDEA 不只接 Claude 和 Codex:本地模型和第三方 API 也能直接用
java·ide·人工智能·chatgpt·intellij-idea·claude
骆驼整理说17 小时前
Cursor辅助编程工具
java·ai编程
xiep143833351017 小时前
华为系列服务器开启Monitor/MWAIT
java·服务器·网络
yaoxin52112317 小时前
417. 现代 Java IO 最佳实践 - 高效遍历、ZIP 处理与临时文件管理
java·开发语言·windows