MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
dagouaofei3 小时前
全面整理6款文档生成PPT工具,PDF转PPT不再难
python·pdf·powerpoint
yesyesyoucan4 小时前
PDF全能处理站:压缩、拆分、合并一站式解决方案与核心技术解析
pdf
sunon_5 小时前
解决linux系统PDF中文乱码问题
linux·运维·pdf
小灰灰搞电子7 小时前
Qt PDF模块详解
数据库·qt·pdf
TextIn智能文档云平台7 小时前
如何将公司内部知识库(Word/PDF)接入大模型?
pdf·word
HSJ01708 小时前
PDF专业转换工具 - 专业版V0.1,PDF转图片、拆分、合并,高效稳定可靠,永久免费使用
pdf
dagouaofei8 小时前
文档生成PPT到底快不快?PDF转PPT工具实测分析
python·pdf·powerpoint
轻竹办公PPT1 天前
上传PDF直接生成PPT,适合工作汇报和总结场景
python·pdf·powerpoint
非凡ghost1 天前
FlexiPDF(专业PDF编辑软件)
windows·学习·pdf·软件需求
xinyu_Jina1 天前
PaperStudio:WYSIWYG文档的Web实现——从CSS Print到客户端PDF生成的技术解析
前端·css·pdf