MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
海峰教授17 小时前
扫描仪+文档pdf编辑器+pdf格式转换器
pdf
Li_na_na0117 小时前
解决安卓手机WebView无法直接预览PDF的问题(使用PDF.js方案)
android·pdf·uni-app·html5
背太阳的牧羊人18 小时前
使用 PyMuPDF(fitz)库打开 PDF 文件,并且是从内存中的字节流(BytesIO)读取 PDF 内容
数据库·pdf·文件处理·pymupdf·fitz
灯火不休ᝰ18 小时前
前端处理pdf文件流,展示pdf
前端·pdf
梨小橙子1 天前
PPT画图,如何用Visio转化为pdf,且无白边
pdf·powerpoint
云只上1 天前
解决Luckysheet在线预览编辑Excel、PDF.....无法在同一个界面创建多个luckysheet实列问题
pdf
inxunoffice1 天前
批量给 PDF 添加页眉页脚以及页码信息
前端·javascript·pdf
学c真好玩1 天前
4.1-python操作wrod/pdf 文件
开发语言·python·pdf
绘绘~1 天前
软考-数据库系统工程师第四版pdf
pdf·软考·数据库系统工程师
熊文豪1 天前
XPath语法完全指南(实战详解版)
自动化测试·xpath·网页爬虫·数据提取·零基础入门·html解析·xpath教程