用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
Lyyaoo.44 分钟前
【JAVA基础面经】native方法
java·开发语言
牛十二1 小时前
nacos2.4连接出错源码分析
java·linux·开发语言
阿巴斯甜1 小时前
userList.stream().sorted((u1, u2) -> u2.getAge() - u1.getAge()); 怎么判断是升序还是降序?
java
小松加哲1 小时前
AspectJ编译期织入实战
java·开发语言
贺小涛1 小时前
python和golang进程、线程、协程区别
java·python·golang
Seven971 小时前
Tomcat的架构设计和启动过程详解
java
Mr-Wanter1 小时前
踩坑记录:IDEA 启动服务连续三次 OOM 内存溢出完整解决
java·ide·intellij-idea·oom
阿巴斯甜1 小时前
User::getName含义?
java
2601_949818091 小时前
SpringBoot项目集成ONLYOFFICE
java·spring boot·后端
阿巴斯甜1 小时前
int sum = list.stream().reduce(0, Integer::sum); 含义?
java