开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求:需要的是文档的完整段落,标题,图片,表格。我们希望删除的是md格式,或者josn格式。 MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。整理出来目前还存在的问题。

MinerU 和 marker

MinerU 是最新的一个PDF解析工具,专门为RAG创作的文档解析工具。可以看看我的这篇文章,对该解析工具的详细介绍。
最新开源的解析效果非常好的PDF解析工具MinerU (pdf2md pdf2json)-CSDN博客

marker是开源很久的一个PDF解析工具。目前star 14.5k。地址如下:

https://github.com/VikParuchuri/marker

对比效果

我以一篇财报的PDF为例。财报通常比较复杂,包含表格,表格还不规整,还包括图片。

先说一下结论:MinerU 和 marker 是开源PDF文档解析中能够满足RAG的需求的。它们多多少少有一些问题,但是还能接受。其中两者解析段落已经非常准确了。并且maker是能够把表格解析为md结构的。MinerU的版面分析也很准确,表格定位蛮准确。

二者存在的问题,对比效果如下

对比问题1:PDF-Extract-Kit 图片识别错误

原PDF首页

marker 解析正确

PDF-Extract-Kit 将文本块,识别成了图片。

对比问题2:表格识别问题

原PDF

maker把表格转成了md格式

但是表格的标题行识别错误了。

PDF-Extract-Kit 未对表格做处理

保存为图片

对比问题3:目录识别问题

PDF原文件

maker把目录识别成了表格

PDF-Extract-Kit 目录识别正确

对比问题4:标题识别问题

原PDF

maker标题遗漏

PDF-Extract-Kit 识别标题正确

对比问题5:表格解析错误

maker表格转md混乱

相关推荐
拓端研究室5 小时前
专题:2025全球消费趋势与中国市场洞察报告|附300+份报告PDF、原数据表汇总下载
大数据·信息可视化·pdf
Kyln.Wu1 天前
【python实用小脚本-190】Python一键删除PDF任意页:输入页码秒出干净文件——再也不用在线裁剪排队
服务器·python·pdf
阿幸软件杂货间2 天前
免费万能电子书格式转换器!Neat Converter支持 ePub、Azw3、Mobi、Doc、PDF、TXT 文件的相互转换。
pdf·格式转换
星马梦缘3 天前
CSDN转PDF【无水印且免费!!!】
pdf·免费·pandoc·转pdf·无水印·csdn转pdf·wkhtmlpdf
画月的亮3 天前
前端处理导出PDF。Vue导出pdf
前端·vue.js·pdf
伊织code3 天前
pdfminer.six
python·pdf·图片·提取·文本·pdfminer·pdfminer.six
HAPPY酷4 天前
给纯小白的Python操作 PDF 笔记
开发语言·python·pdf
代码AI弗森5 天前
PDF OCR + 大模型:让文档理解不止停留在识字
pdf·ocr
小周同学:5 天前
在 Vue2 中使用 pdf.js + pdf-lib 实现 PDF 预览、手写签名、文字批注与高保真导出
开发语言·前端·javascript·vue.js·pdf
Kyln.Wu6 天前
【python实用小脚本-187】Python一键批量改PDF文字:拖进来秒出新文件——再也不用Acrobat来回导
python·pdf·c#