MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
一名技术极客20 分钟前
Vue2 doc、excel、pdf、ppt、txt、图片以及视频等在线预览
pdf·powerpoint·excel·文件在线预览
S. Dylan14 小时前
Edge浏览器打开PDF无法显示电子签章
edge·pdf
一马平川的大草原14 小时前
如何基于pdf2image实现pdf批量转换为图片
计算机视觉·pdf·文件拆分
m0_5945263014 小时前
Python批量合并多个PDF
java·python·pdf
hairenjing112314 小时前
将图片添加到 PDF 的 5 种方法
pdf
✿゚卡笨卡14 小时前
pdf 添加页眉页脚,获取前五页
java·pdf
blegn14 小时前
PDF编辑工具Adobe Acrobat DC 2023安装教程(附安装包)
pdf·办公软件·office
patrickpdx16 小时前
如何调整pdf的页面尺寸
pdf
星月前端18 小时前
【vue-pdf】简单封装pdf预览组件
javascript·vue.js·pdf
Eiceblue1 天前
Python 在PDF中绘制形状(线条、矩形、椭圆形等)
vscode·python·pycharm·pdf