用C#写一个读取pdf文档内容的库

安装这两个库,第二个库一定要安装否则有些pdf文件读取会出现异常

读取

csharp 复制代码
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace TestReadPdf
{
    public static class PdfHelper
    {
        public static IEnumerable<string> ExtractText(string filename)
        {
            using (var r = new PdfReader(filename))
            using (var doc = new PdfDocument(r))
            {
                for (int i = 1; i < doc.GetNumberOfPages(); i++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);
                    yield return text;
                }
            }
        }
    }
}
相关推荐
SimonKing3 分钟前
铁子,IntelliJ IDEA 2026.1.3来了,升不升?
java·后端·程序员
咖啡八杯11 小时前
GoF设计模式——策略模式
java·后端·spring·设计模式
用户1285261160219 小时前
我把祖传Java项目重构后,接口响应从3s砍到了200ms,只改了这几行代码
java
Linsk19 小时前
组件 = 模板 + 业务逻辑
java·前端·vue.js
唐青枫20 小时前
别只会反射:C#.NET Emit 动态生成代码实战详解
c#·.net
星沉远浦20 小时前
用Gemini高效解决Java代码报错难以定位的问题
java
用户298698530141 天前
Word 文档字符级格式化:Java 实现方案详解
java·后端
咕白m6251 天前
.NET 环境下 Word 超链接批量提取方案
c#·.net
笨鸟飞不快1 天前
从单个服务到集群:一次完整的性能排查复盘
java·前端
用户91721561902111 天前
C# 通信协议增量解析:用状态机处理半包和粘包
c#