MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
Less is moree9 分钟前
PDF无法打印怎么解决?
pdf
lijun_xiao20095 小时前
Python-将身份证正反面图片-生成PDF
pdf
A尘埃6 小时前
项目七:PDF智能公式与计算(金融机构信贷报告自动解析与风险评估)
pdf
百事牛科技18 小时前
PDF如何设置密码?3种方法保护文件安全
windows·pdf
mysusheng18 小时前
2025 批量下载微博内容/图片/视频,导出word和pdf,微博点赞/评论/转发等数据导出excel
pdf·word·excel
lijun_xiao200918 小时前
Python-PDF文件生成水印
pdf
zongxingfengyun19 小时前
图片转pdf接口
pdf
cpych19 小时前
如何从 PDF 中删除页面
pdf
开开心心就好1 天前
无需函数:Excel数据筛选工具推荐
xml·网络·pdf·华为云·word·excel·音视频
拓端研究室2 天前
专题:2025构建全自动驾驶汽车生态系统:中国智能驾驶行业全景研究报告|附80+份报告PDF、数据仪表盘汇总下载
pdf·自动驾驶·汽车