用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
秋雨雁南飞13 小时前
C# 动态脚本执行器
c#·动态编译
Element_南笙13 小时前
BUG:ModuleNotFoundError: No module named ‘milvus_lite‘
java·服务器·数据库
yyy(十一月限定版)14 小时前
C++基础
java·开发语言·c++
Coder_Boy_14 小时前
分布式系统设计经验总结:金融vs电商的核心差异与决策思路
java·运维·微服务·金融·电商
月巴月巴白勺合鸟月半14 小时前
用AI生成一个简单的视频剪辑工具 的后续
c#
To Be Clean Coder14 小时前
【Spring源码】getBean源码实战(一)
java·后端·spring
派大鑫wink14 小时前
【Day21】NIO入门:通道、缓冲区与非阻塞IO基础
java·开发语言
ziyue757514 小时前
idea将配置移动到自定义位置
java·intellij-idea·idea·软件
南汐以墨14 小时前
UI自动化测试指南(一):浅解概念
java·测试工具
不能只会打代码14 小时前
力扣--1970. 你能穿过矩阵的最后一天(Java)
java·算法·leetcode·二分查找·力扣·bfs·最后可行时间