用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
森林里的程序猿猿4 分钟前
并发设计模式
java·开发语言·jvm
222you14 分钟前
四个主要的函数式接口
java·开发语言
Javatutouhouduan30 分钟前
Java全栈面试进阶宝典:内容全面,题目高频!
java·高并发·java面试·java面试题·后端开发·java程序员·java八股文
SEO-狼术43 分钟前
RAD Studio 13.1 Florence adds
java
ywf12151 小时前
Spring Boot接收参数的19种方式
java·spring boot·后端
开开心心_Every1 小时前
限时免费加密、隐藏、锁定文件文件夹好工具
运维·服务器·人工智能·edge·pdf·逻辑回归·深度优先
敲代码的瓦龙2 小时前
Java?面向对象三大特性!!!
java·开发语言
架构师沉默2 小时前
AI 写的代码,你敢上线吗?
java·后端·架构
骑龙赶鸭2 小时前
java开发项目中遇到的难点,面试!
java·开发语言·面试