MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
程序员皮皮林2 小时前
开源PDF工具 Apache PDFBox 认识及使用(知识点+案例)
java·pdf·开源·apache
weixin_419349793 小时前
Python pdf转换为html
python·pdf
易我科技5 小时前
PDF里怎么直接编辑文字?简单操作指南
pdf
海绵波波1072 天前
Zotero使用(一)PDF文件导入不会自动识别
pdf
2401_856926932 天前
图片转PDF技巧揭秘:四款高效工具推荐!
学习·pdf·图片转pdf·图片转pdf工具
alex18012 天前
python实现多个pdf文件合并
java·python·pdf
似璟如你2 天前
Vue点击按钮生成pdf文件/Vue点击按钮生成png图片
pdf
deephub2 天前
概率分布深度解析:PMF、PDF和CDF的技术指南
人工智能·python·机器学习·pdf·概率论
William.csj2 天前
PDF——压缩大小的方法
pdf
百事牛3 天前
【方法】如何禁止PDF转换成其他格式文件?
windows·pdf