PaddleOCR-VL，超强文字识别能力，PDF的拯救者

转眼间已经是 2025 年的 Q4 了，年终越来越近，领导给予的 okr 压力越来越大，前段时间，领导提出了一个非常搞的想法，当然也是急需解决的痛点------线上一键翻译功能。

小包当前负责是开发开发面向全球各国的活动，因此活动中不免就会出现各种各样的语言，此时就出现了一个困扰已久的难题，线上体验的同学看不懂，体验过程重重受阻，很容易遗漏掉一些环节，导致一些问题很难暴露出来。

为了这个问题，小包跟进了一段时间了，主要有两个地方的文案来源

代码渲染的文本
切图中的静态文本

大多数文本来源于是切图中，因此如何应对各种各样的切图成为难题。由此小包提出了两种解决方案：

同时保存两种图片资源，分别为中文和当前区服语言
直接进行图片翻译

第一种方案被直接拒绝了，主要由于当前的技术架构和同事们的一些抵触，业务中使用的 img、txt 信息都存储在配置平台中，存储两份就需要维护两类配置，严重增加了心智负担。

那我是这么思考的，第一次上传图片资源时，自动进行图片翻译，存储在另一个配置字段中，当开启一键翻译功能后，切换翻译后的图片。

由于是内部使用的工具，因此不需要非常准确，为了节省 token，只在第一次进行翻译。

图片翻译需要两个过程，首先进行 OCR，识别出图片中的文字；其次对识别出的文字进行翻译。

尝试了好几款 OCR 工具，都有些不尽人意，整个过程中，体验最好的是上个月PaddleOCR推出的PP-OCRv5。

在一段时间内，都一直盯着 PaddleOCR 的最新进度，昨天，百度发布并开源自研多模态文档解析模型 PaddleOCR-VL，该模型在最新 OmniDocBench V1.5 榜单中，综合性能全球第一，四项核心能力SOTA，模型已登顶HF全球第一。

这么说我的 OKR 有救了啊，快马加鞭的来试一下。

对于线上翻译，有两种指标是必须要达到的

文字区域识别的准确性
支持语言的多样性

下面逐一地体验一下

OKR 需求测试

先随便找了一张较为简单的韩服的设计稿，识别效果见右图，识别的区域非常准确，精准的区分开文字区域和图像区域。

右侧有三个 tab，其中第一个 tab：Markdown Preview 预览还支持翻译功能，翻译的文案也是非常准确的

激动了啊，感觉 PaddleOCR-VL 自己就可以解决当前的需求啊。

再换一种比较复杂的语言，阿拉伯语。支持效果也是出奇的好啊，阿语活动开发过程和体验过程是最难受的啊，目前也是最严重的卡点

对于阿语的翻译的效果也非常好，这点太惊喜了，阿服的字体又细又长，字间距又窄，能做到这么好的识别真是让人惊艳

经过一番简单的测试，PaddleOCR-VL 完全可以应对领导的 OKR 要求了（毕竟天下第一难语言阿服都可以较为完美的应对，撒花），爽啊！只需要把 demo 跑出来，就可以去申请经费啦。

总结

PaddleOCR-VL 效果真是非常惊艳啊，年底的 okr 实现的信心大增。

PaddleOCR-VL 文字识别感觉像戴了高精度眼镜一般，后续遇到类似的文字识别需求，可以首选 PaddleOCR-VL 啊。

此外小小看了一下论文，PaddleOCR-VL 采用创新的两阶段架构：第一阶段由 PP-DocLayoutV2 模型负责版面检测与阅读顺序预测；第二阶段由 PaddleOCR-VL-0.9B 识别并结构化输出文字、表格、公式、图表等元素。相较端到端方案，能够在复杂版面中更稳定、更高效，有效避免多模态模型常见的幻觉与错位问题。

PaddleOCR-VL在性能、成本和落地性上实现最佳平衡，具备强实用价值。后续遇到文字识别的需求，PaddleOCR-VL 是当之无愧的首选。

体验链接：

Github：github.com/PaddlePaddl...

huggingface：huggingface.co/PaddlePaddl...

Technical report：arxiv.org/pdf/2510.14...

Technical Blog：

English: ernie.baidu.com/blog/posts/...

Chinese: ernie.baidu.com/blog/zh/pos...

PaddleOCR-VL，超强文字识别能力，PDF的拯救者

OKR 需求测试

更多测试

糊图识别

元素级识别

总结