MinerU 是一款将PDF转化如markdown、json工具

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击

导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的

相关推荐
伏特加女孩的实验室16 小时前
candence导出PDF
pdf·candence·原理图设计·硬件工程师日常
Eric.Lee202117 小时前
python实现pdf转图片png
linux·python·pdf
优化控制仿真模型18 小时前
【2026年6月最新】英语六级高频核心词汇1500个+历年真题PDF
经验分享·pdf
其实秋天的枫18 小时前
【2026年6月最新】英语六级高频核心词汇1500个+历年真题PDF
经验分享·pdf
开开心心就好20 小时前
桌面图标乱了怎么办,一键恢复固定位置工具
运维·服务器·windows·pdf·excel·3dsmax·houdini
琪伦的工具库1 天前
从Word/PDF/PPT/Excel批量提取图片:工具使用记录
pdf
asdzx671 天前
使用 Python 将图片转换为 PDF (含合并)
前端·python·pdf
琪伦的工具库1 天前
批量提取PDF指定页面为图片:参数配置与DPI选择指南
pdf
weixin_441003642 天前
2027徐涛《核心考案+优题库》电子版pdf
pdf
IT大师兄吖2 天前
paddleOcr 懒人整合包 添加pdf和图片转markdown 添加GPU支持
pdf