MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
软件工程小施同学19 分钟前
计算机学报 2025年 区块链论文 录用汇总 附pdf下载
pdf·区块链
VB5944 小时前
《中国传世名画》《中国传世山水画》《中国传世人物画》百科全书式的中国名画,PDF,294M
pdf
家庭云计算专家4 小时前
ONLYOFFICE深度解锁系列.13-如何复制、重新排序 PDF 页面:onlyoffice 9.0.3 新功能
pdf·onlyoffice·协作空间·onlyoffice开发版·onlyoffice新功能·onlyoffice开发者版
Eiceblue2 天前
PDF转Markdown - Python 实现方案与代码
开发语言·vscode·python·pdf
Bruce_Liuxiaowei2 天前
Python实现PDF按页分割:灵活拆分文档的技术指南
windows·python·pdf
烛九幽-子麟2 天前
精通Python PDF裁剪:从入门到专业的三重境界
开发语言·python·pdf
じòぴé南冸じょうげん3 天前
Vue中最简单的PDF引入方法及优缺点分析
前端·javascript·vue.js·pdf
开心就好13145203 天前
前端项目下载发票pdf文件要求改文件名笔记
前端·笔记·pdf
诸葛大钢铁3 天前
PDF转Word的简单方法
pdf·word
菜鸟看点3 天前
QGraphicsScene导出为PDF
c++·pdf