开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求:需要的是文档的完整段落,标题,图片,表格。我们希望删除的是md格式,或者josn格式。 MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。整理出来目前还存在的问题。

MinerU 和 marker

MinerU 是最新的一个PDF解析工具,专门为RAG创作的文档解析工具。可以看看我的这篇文章,对该解析工具的详细介绍。
最新开源的解析效果非常好的PDF解析工具MinerU (pdf2md pdf2json)-CSDN博客

marker是开源很久的一个PDF解析工具。目前star 14.5k。地址如下:

https://github.com/VikParuchuri/marker

对比效果

我以一篇财报的PDF为例。财报通常比较复杂,包含表格,表格还不规整,还包括图片。

先说一下结论:MinerU 和 marker 是开源PDF文档解析中能够满足RAG的需求的。它们多多少少有一些问题,但是还能接受。其中两者解析段落已经非常准确了。并且maker是能够把表格解析为md结构的。MinerU的版面分析也很准确,表格定位蛮准确。

二者存在的问题,对比效果如下

对比问题1:PDF-Extract-Kit 图片识别错误

原PDF首页

marker 解析正确

PDF-Extract-Kit 将文本块,识别成了图片。

对比问题2:表格识别问题

原PDF

maker把表格转成了md格式

但是表格的标题行识别错误了。

PDF-Extract-Kit 未对表格做处理

保存为图片

对比问题3:目录识别问题

PDF原文件

maker把目录识别成了表格

PDF-Extract-Kit 目录识别正确

对比问题4:标题识别问题

原PDF

maker标题遗漏

PDF-Extract-Kit 识别标题正确

对比问题5:表格解析错误

maker表格转md混乱

相关推荐
manjianghong8613 小时前
如何将一本书PDF扫描件转word 并打印(免费工具)
pdf·word·pdf处理工具
zhangfeng113318 小时前
大语言模型llm学习路线电子书 PDF、开源项目、数据集、视频课程、面试题、工具镜像汇总成一张「一键下载清单」
学习·语言模型·pdf
manjianghong8620 小时前
PDF扫描件图片太大如何批量裁剪(免费工具)
pdf·pdf免费工具·pdf文件处理
YJlio20 小时前
杨利杰YJlio|博客导航目录(专栏总览 + 推荐阅读路线)
开发语言·python·pdf
꧁༺℘₨风、凌๓༻꧂21 小时前
C# WPF 项目中集成 Pdf查看器
pdf·c#·wpf
liliangcsdn1 天前
常用pdf解析提取工具的分析和示例
pdf
有趣灵魂2 天前
Java-Spingboot根据HTML模板和动态数据生成PDF文件
java·pdf·html
mfxcyh2 天前
使用html2canvas和jsPDF导出pdf文件、把pdf文件传给后端
pdf
ComPDFKit2 天前
从爱泼斯坦案文件泄露,看“涂黑≠删除”的 PDF 脱敏陷阱
pdf·脱敏·pdf redaction·标记密文·涂黑
今夕资源网2 天前
PDF与图片在线处理工具纯HTML网页源码 PDF 多功能魔方
pdf·pdf在线处理