PaddleOCR-VL-1.5 懒人整合包 支持PDF转MD 比PP-StructureV3更精准

PaddleOCR-VL-1.5

github地址:https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR-VL-1.5:0.9B VLM,专为真实世界文档解析和文本识别而 设计,是一款资源高效且达到最先进水平的模型。它在文档解析任务中,涵盖六大主要场景:正常、倾斜、变形、扫描、多光照和屏幕拍摄,均展现出全面领先优势。该模型引入了领先的文本识别和印章识别功能,增强了对复杂元素(如文本、表格、公式和图表)的解析能力,并将语言支持扩展至111种语言------所有这些都保持了极低的资源消耗

核心特性:

  • 文档解析任务的SOTA性能: PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准上实现了 94.5% 的高精度,超越了全球顶尖的通用大模型和文档解析专用模型。
  • 现实5大场景文档解析的SOTA性能: 引入了一种创新的文档解析方法,业界首个支持不规则文档版面定位。在扫描、弯曲、倾斜、屏摄和光照变化这五个现实场景的文档解析任务评估集上,表现全面优于主流的开源和闭源模型。
  • 基于0.9B紧凑模型的能力扩展: 基于 0.9B 的参数量,PaddleOCR-VL-1.5 扩展了文本检测识别和印章识别任务,进一步提升了其能力范围,各任务相关指标均创下了 SOTA 结果。
  • 强化多元素识别能力: 增强了特定场景和多语言识别方面的能力。针对特殊符号、古籍、多语言表格、下划线和复选框的识别性能得到提升。语言覆盖范围扩展,新增支持中国藏文和孟加拉语识别。
  • 长文档跨页解析: 模型支持跨页表格自动合并和跨页段落标题识别,有效缓解了长文档解析中的内容碎片化问题。

使用说明

双击start_gpu.bat,等待终端启动

启动成功后,确认终端没有错误

正常加载对应的模型和网址

打开网页http://127.0.0.1:8000/docs

选择/parse,点击try it

选择要解析的PDF文件,设置返回的类型为md,设置返回的结果为文件file

点击Execute执行

点击download file,会下载一个zip压缩包

解压缩会得到对应的md文件和图片

建议使用marktext来打开md文件,对md公式,图表,表格支持比较友好

Tips

点击此处 网盘下载

本文是PaddleOcr系列的第三篇,第一篇是cpu支持,第二篇是gpu支持,且添加pdf转md

第三篇是处理模型不同

一个是PaddleOCR 3.x 系列的传统 pipeline,具体是 PP-OCRv5 + PP-StructureV3 的组合(高精度传统 OCR + 结构化解析(PP-OCRv5 文字识别 + PP-StructureV3 布局/表格/公式/图表/印章等))

一个是PaddleOCR-VL(0.9B/1.5 等视觉语言模型版本)(极致最全"(特别是无边框复杂表单、图表语义、手写混合、端到端理解))

经过实际测试

PaddleOCR-VL-1.5的pdf转md的效果要好于PP-StructureV3

PP-StructureV3的解析会出现少文字,以及段落换行,图表转换数据等问题

同样的pdf使用PaddleOCR-VL-1.5,没有明显的错误,表面上解析度为100%,md的格式正确且完整

PaddleOCR-VL-1.5实际测试,占用显存8.2GB左右

相关推荐
asdzx671 小时前
使用 Python 快速提取 PDF 中的表格
python·pdf
南风微微吹4 小时前
2026英语六级作文模版万能句子PDF电子版
pdf·英语六级
又是被bug折磨的一天5 小时前
对多个pdf合同文件批量命名
pdf
南风微微吹7 小时前
2026年英语四级作文模版万能句子PDF电子版
pdf·英语四级
这是个假程序员9 小时前
PDF分色、智能PDF黑彩识别工具
pdf
夜勤月9 小时前
HarmonyOS 6.0 ArkWeb实战:PDF背景色自定义功能全解析(附完整代码+避坑指南)
华为·pdf·harmonyos
relis10 小时前
AI使用小技巧: 用zed和MinerU本地版,同时学习PDF文档的文字和图片
ai·pdf·大模型·agent
海盗123410 小时前
C#中PDF操作-QuestPDF页面设置与布局
java·pdf·c#
又是被bug折磨的一天11 小时前
发票形式是eml批量下载发票pdf
pdf
hmz85613 小时前
亲测有效,完全免费PDF转换工具,支持PDF压缩、PDF转图片、PDF删除和排序 、PDF转Word、PDF转文本、图片转PDF【附安装教程】
pdf