PaddleOCR-VL-1.5 懒人整合包 支持PDF转MD 比PP-StructureV3更精准

PaddleOCR-VL-1.5

github地址:https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR-VL-1.5:0.9B VLM,专为真实世界文档解析和文本识别而 设计,是一款资源高效且达到最先进水平的模型。它在文档解析任务中,涵盖六大主要场景:正常、倾斜、变形、扫描、多光照和屏幕拍摄,均展现出全面领先优势。该模型引入了领先的文本识别和印章识别功能,增强了对复杂元素(如文本、表格、公式和图表)的解析能力,并将语言支持扩展至111种语言------所有这些都保持了极低的资源消耗

核心特性:

  • 文档解析任务的SOTA性能: PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准上实现了 94.5% 的高精度,超越了全球顶尖的通用大模型和文档解析专用模型。
  • 现实5大场景文档解析的SOTA性能: 引入了一种创新的文档解析方法,业界首个支持不规则文档版面定位。在扫描、弯曲、倾斜、屏摄和光照变化这五个现实场景的文档解析任务评估集上,表现全面优于主流的开源和闭源模型。
  • 基于0.9B紧凑模型的能力扩展: 基于 0.9B 的参数量,PaddleOCR-VL-1.5 扩展了文本检测识别和印章识别任务,进一步提升了其能力范围,各任务相关指标均创下了 SOTA 结果。
  • 强化多元素识别能力: 增强了特定场景和多语言识别方面的能力。针对特殊符号、古籍、多语言表格、下划线和复选框的识别性能得到提升。语言覆盖范围扩展,新增支持中国藏文和孟加拉语识别。
  • 长文档跨页解析: 模型支持跨页表格自动合并和跨页段落标题识别,有效缓解了长文档解析中的内容碎片化问题。

使用说明

双击start_gpu.bat,等待终端启动

启动成功后,确认终端没有错误

正常加载对应的模型和网址

打开网页http://127.0.0.1:8000/docs

选择/parse,点击try it

选择要解析的PDF文件,设置返回的类型为md,设置返回的结果为文件file

点击Execute执行

点击download file,会下载一个zip压缩包

解压缩会得到对应的md文件和图片

建议使用marktext来打开md文件,对md公式,图表,表格支持比较友好

Tips

点击此处 网盘下载

本文是PaddleOcr系列的第三篇,第一篇是cpu支持,第二篇是gpu支持,且添加pdf转md

第三篇是处理模型不同

一个是PaddleOCR 3.x 系列的传统 pipeline,具体是 PP-OCRv5 + PP-StructureV3 的组合(高精度传统 OCR + 结构化解析(PP-OCRv5 文字识别 + PP-StructureV3 布局/表格/公式/图表/印章等))

一个是PaddleOCR-VL(0.9B/1.5 等视觉语言模型版本)(极致最全"(特别是无边框复杂表单、图表语义、手写混合、端到端理解))

经过实际测试

PaddleOCR-VL-1.5的pdf转md的效果要好于PP-StructureV3

PP-StructureV3的解析会出现少文字,以及段落换行,图表转换数据等问题

同样的pdf使用PaddleOCR-VL-1.5,没有明显的错误,表面上解析度为100%,md的格式正确且完整

PaddleOCR-VL-1.5实际测试,占用显存8.2GB左右

相关推荐
2501_9270125712 小时前
修改pdf属性时间和日期怎么改?3种方法,零专业工具上手
经验分享·其他·pdf
诸葛大钢铁14 小时前
如何限制PDF的打印、复制编辑等操作?限制PDF打印编辑复制的三种方法
pdf·word·pdf打印限制·权限限制
南风微微吹14 小时前
2000-2026年国考《行测+申论》历年真题及答案解析PDF电子版(考公)
pdf·考公
开开心心_Every15 小时前
扫描软件,部分文档文字表格识别功能可免费
运维·服务器·pdf·电脑·excel·3dsmax·houdini
无心水21 小时前
15、商业API巅峰对决|Adobe vs Google vs Azure 高精度OCR全方位评测
架构·pdf·pdf解析·pdf抽取·paddlercor
weixin_4166600721 小时前
原创分享:Markdown 转 Word 工具,一键导出Word/PDF文档
pdf·word·latex·deepseek
开开心心就好21 小时前
这款PPT计时工具支持远程控制功能
前端·科技·游戏·edge·pdf·全文检索·powerpoint
开开心心就好2 天前
无需安装的单机塔防游戏轻松畅玩
人工智能·游戏·pdf·音视频·智能家居·语音识别·媒体
枫叶丹42 天前
【HarmonyOS 6.0】ArkWeb PDF预览回调功能详解:让PDF加载状态可控可感
开发语言·华为·pdf·harmonyos
优化控制仿真模型2 天前
【26年6月最新】英语六级2015-2025年12月历年真题及答案PDF
经验分享·pdf