基于MinerU的PDF解析API

致Great2024-09-08 20:27

基于MinerU的PDF解析API

复制代码

- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动，已经打包到镜像中，自带模型权重，支持GPU推理加速，GPU速度相比CPU每页解析要快几十倍不等

主要功能

删除页眉、页脚、脚注、页码等元素，保持语义连贯
对多栏输出符合人类阅读顺序的文本
保留原文档的结构，包括标题、段落、列表等
提取图像、图片标题、表格、表格标题
自动识别文档中的公式并将公式转换成latex
自动识别文档中的表格并将表格转换成latex
乱码PDF自动检测并启用OCR
支持CPU和GPU环境
支持windows/linux/mac平台

具体原理

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md

PDF文档中包含大量知识信息，然而提取高质量的PDF内容并非易事。为此，我们将PDF内容提取工作进行拆解：

布局检测：使用LayoutLMv3模型进行区域检测，如图像，表格,标题,文本等；
公式检测：使用YOLOv8进行公式检测，包含行内公式和行间公式；
公式识别：使用UniMERNet进行公式识别；
表格识别：使用StructEqTable进行表格识别；
光学字符识别：使用PaddleOCR进行文本识别；

镜像地址：

阿里云地址：docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models
dockerhub地址：docker pull quincyqiang/mineru:0.2-models

启动命令：

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客：https://blog.csdn.net/yanqianglifei/article/details/141979684

启动日志：

输入参数：

访问地址：

复制代码

http://localhost:8888/docs

http://127.0.01:8888/docs

解析效果：

返回内容字段包括:dict_keys( $'layout', 'info', 'content'$ )

其中content是一个字典列表：

json 复制代码

{
  'type': 'text', 
  'text': '现在我们知道：价值实体就是劳动；劳动量的尺度就是劳动持续时间。', 
  'page_idx': 5
}

上一篇：CSDN文章无水印转成PDF

下一篇：Web前端 lucky-canvas【大转盘 & 九宫格 & 老虎机】抽奖插件（适用JS/TS、Vue、React、微信小程序、Uniapp和Taro）

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 0300 Debian字符界面如何支持中文 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）052026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026开年大模型最新对比解析及场景落地指南