基于MinerU的PDF解析API

基于MinerU的PDF解析API

复制代码
- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动,已经打包到镜像中,自带模型权重,支持GPU推理加速,GPU速度相比CPU每页解析要快几十倍不等

主要功能

  • 删除页眉、页脚、脚注、页码等元素,保持语义连贯
  • 对多栏输出符合人类阅读顺序的文本
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

具体原理

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md

PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解:

  • 布局检测:使用LayoutLMv3模型进行区域检测,如图像,表格,标题,文本等;
  • 公式检测:使用YOLOv8进行公式检测,包含行内公式和行间公式;
  • 公式识别:使用UniMERNet进行公式识别;
  • 表格识别:使用StructEqTable进行表格识别;
  • 光学字符识别:使用PaddleOCR进行文本识别;

镜像地址:

阿里云地址:docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models
dockerhub地址:docker pull quincyqiang/mineru:0.2-models

启动命令:

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客:https://blog.csdn.net/yanqianglifei/article/details/141979684

启动日志:

输入参数:

访问地址:

复制代码
http://localhost:8888/docs

http://127.0.01:8888/docs

解析效果:

返回内容字段包括:dict_keys(['layout', 'info', 'content'])

其中content是一个字典列表:

json 复制代码
{
  'type': 'text', 
  'text': '现在我们知道:价值实体就是劳动;劳动量的尺度就是劳动持续时间。', 
  'page_idx': 5
}
相关推荐
夏日白云3 小时前
《PDF解析工程实录》第 8 章|融合策略:不是兜底,而是信息利用率最大化
pdf·llm·大语言模型·rag·文档解析
m5655bj4 小时前
通过 Python 提取 PDF 表格数据
服务器·python·pdf
清平乐的技术专栏5 小时前
电脑自带Edge浏览器进行PDF文件合并
前端·edge·pdf
Irene19916 小时前
文档加密加水印只读分享:WPS/PPT编辑后导出PDF(附:百度网盘分享流程)
pdf·加密·wps·pptx·只读
2501_930707786 小时前
使用C#代码重新排列 PDF 页面
开发语言·pdf·c#
南风微微吹7 小时前
【2026年3月】计算机二级WPS真题试卷及解析14套~电子版PDF
pdf·wps·计算机二级wps
夏日白云9 小时前
《PDF解析工程实录》第 9 章|端到端多模态模型:不是接不住,而是要看业务能接受什么
pdf·llm·大语言模型·多模态·rag·文档解析
机器学习算法与Python实战1 天前
PDF 文件翻译,我有4个方案推荐
pdf
manjianghong862 天前
如何将一本书PDF扫描件转word 并打印(免费工具)
pdf·word·pdf处理工具
zhangfeng11332 天前
大语言模型llm学习路线电子书 PDF、开源项目、数据集、视频课程、面试题、工具镜像汇总成一张「一键下载清单」
学习·语言模型·pdf