地表最强“慧眼”，给大模型戴上智能眼镜 PaddleOCR-VL

大模型的视力很重要

当我们谈论大模型时，总在惊叹其 "读懂" 文本、"生成" 内容的能力，GPT-4o 能写代码、Gemini-2.5 Pro 能做逻辑推理。大语言模型（LLM）的能力边界不断拓宽。其中，检索增强生成（RAG）技术更是遍地开花，它让LLM能够连接外部知识库，回答训练数据之外的问题，使其从一个"博学的书呆子"变成了一个能够实时获取信息的"全科专家"。

但有时候觉得市面上的大模型或者是自己制作的智能体好像并不是那么聪明。这其中有一个被许多人忽略的关键问题：如果你的大模型"视力"不行，RAG的效果会怎样？

现实世界中大多数信息是藏在非结构化文档里，比如学术论文的PDF、财报的扫描件、手写的笔记、竖排的古籍善本...... 这些 "视觉化信息" 对大模型而言，就像模糊的 "视力表"。没有 OCR （ 光学字符识别 ）技术的 "翻译"，再强的大模型也只能 "视而不见"。

从这个角度去看，OCR就是大模型的上游。

一个"近视"的OCR，会给下游的大模型喂进去一堆"垃圾"信息。而我们都知道一个朴素的真理：Garbage In, Garbage Out。再强大的LLM，面对一堆错乱的输入，也无法产出准确、可靠的答案。

因此，给大模型挑选一双"火眼金睛"至关重要。在半个月前我介绍过百度的PP-OCRv5这款小身材大能力的OCR模型，没想到10月16日百度又来一款更强悍的OCR模型------ PaddleOCR-VL。

和PP-OCRv5专注于文字识别不同，PaddleOCR-VL的特点在于多模态文档解析，它能够像人一样读懂、理解复杂版面结构，精准提取财报表格、数学公式、课堂手写笔记等多元信息，并在识别后自动还原符合人类阅读习惯的阅读顺序，精准区分标题、正文、图片与图注，确保信息无遗漏、逻辑不混乱。

这完全刷新了全球OCR的性能天花板，它到底有多强悍？让我们一探究竟。

你也可以一边看文章一边动手试试：aistudio.baidu.com/application...

掰掰手腕

评价一款OCR模型，不能只凭感觉，必须要在最严苛、最权威的赛场上真刀真枪地比试。这个赛场，就是OmniBenchDoc V1.5全球评测榜单。

PaddleOCR-VL，作为文心4.5的 最强 衍生模型 ，基于ERNIE-4.5-0.3B语言模型训练，参数仅0.9B ，却爆发出惊人能量。它在最新榜单中，以92.6的综合得分位列全球第一。

我从文本识别、公式识别、表格理解、阅读顺序这四个维度测试PaddleOCR-VL，同时也会拉出GPT、Gemini以及豆包这几个模型横评。一起看看PaddleOCR-VL是不是这么能打～

中文手写识别

印刷体识别已是基础操作，真正的挑战在于复杂、多变的手写体。我选用了一张有一定拍摄倾斜角度、且包含涂改痕迹的学生作文来测试。

PaddleOCR - VL

识别率惊人地准确，完美识别出所有手写文字，并且智能地识别出自然段落并进行了分段。

唯一可提及的是未识别出页面右上角"评语"二字，但这在作文内容识别的核心任务中瑕不掩瑜。

ChatGPT

开局就出现错乱，更严重的是，它似乎在我的提示词"识别图中的文字并返回给我"之外，进行了"自我润色"，这在要求精准还原的OCR任务中是严重的大忌。

Gemini

Gemini也是一开始就错了，但表现优于ChatGPT。Gemini同样存在"过度推理"的问题。例如，原文缺少一个"具"字，Gemini自作主张地给补全了。

豆包

和ChatGPT一样离谱，前半段识别结果完全错误😂

不过后半段豆包又清醒了，能识别出来。

排名

在中文手写识别这个核心场景，PaddleOCR-VL展现了绝对的实力，它忠实于原文，精准还原，不像其他大模型会"画蛇添足"。

在"文字识别"的测试中，我给出的排名：

PaddleOCR-VL
Gemini
豆包
ChatGPT

阅读顺序测试

不是所有文稿都是从左往右、从上往下阅读的。

比如我们的古诗词，以前的习惯是从右往左读，竖向排版。普通的OCR工具是很难准确判断材料的排版方式。PaddleOCR-VL可以！

这次用到的这张测试图的内容是《大唐三藏圣教序》的节选，而且把标点符号全部去掉，从右往左竖向排版，简体和繁体混合适用。

PaddleOCR VL

PaddleOCR VL果然能完美完成这次任务！

ChatGPT

ChatGPT能理解图片的内容，然后转成简体中文输出，但莫名其妙加了一点空格。

Gemini

Gemini也能识别出图片的内容，但可能检测到图片中存在繁体中文，所以返回的内容都改成繁体字了（第一个字就改成繁体了）。而且也莫名其妙加了标点符号进去。

豆包

豆包也能准确是被出图片的内容，但和ChatGPT一样都改成简体中文。在排版上豆包反而能更符合原文要求。

排名

在还原度方面，PaddleOCR-VL毋庸置疑是排第一的，各家大语言模型应该是用过《大唐三藏圣教序》做训练数据，推理出现在要识别的是《大唐三藏圣教序》的内容，而不是完完全全把OCR的识别接过返回给用户。

在"阅读顺序"的测试中，我给出的排名：

PaddleOCR-VL
豆包
ChatGPT和Cemini并列第三

表格理解能力

这可能是最具挑战性的一关。我选择了一张打印后被折叠、有阴影、有角度、且包含合并单元格的真实表格照片。这考验的不仅仅是文字识别，更是对空间和逻辑结构的深度理解。

PaddleOCR - VL

PaddleOCR-VL不仅100%还原了表格的排版布局，精准处理了合并单元格，甚至连与边框重叠的文字都分毫不差地提取出来。它直接输出了结构化的HTML代码，展现了真正的"表格理解"能力。如果要挑刺，可能只有在线Demo的预览文字没有居中，但这已是吹毛求疵。

ChatGPT

识别率很高，但完全忽略了表头"经济技术指标"，并且错误地填充了空白单元格。它基于Markdown的表格语法，难以处理合并单元格的复杂结构。

Gemini

Gemini同样丢失了表头，排版美观度不及ChatGPT。

豆包

直接罢工了😓

排名

在最能体现"文档解析"价值的表格理解环节，PaddleOCR-VL展现了断层式的领先优势。它不只是"识别"，而是真正地在"理解"。

在"理解表格能力"的测试中，我给出的排名：

PaddleOCR-VL
ChatGPT
Gemini
豆包

拍糊的表格

不知道大家有没有接触过这种图片。我在工作中经常会遇到有客户用手机拍出这种模糊的、带摩尔纹的同时还有点反光的照片过来让我处理问题。

如果公司系统接入AI功能，要提取用户发来的这种图片里的信息，一个优秀的OCR模型是必不可少的。

PaddleOCR - VL

PaddleOCR-VL的返回结果符合预期，唯一能挑刺的地方只有表格的缩进问题。不过原图表格并没有单元格边框，这就缺少了参考线，所以缩进部分识别不出来也可以理解。

PaddleOCR-VL返回的结果 ⬇️

css 复制代码

<table border=1 style='margin: auto; width: max-content;'><tr><td style='text-align: center;'>分布区类型Distribution types</td><td style='text-align: center;'>属数Number of genera</td><td style='text-align: center;'>百分比Percentage/%</td><td style='text-align: center;'>种数Number of species</td><td style='text-align: center;'>百分比Percentage/%</td></tr><tr><td style='text-align: center;'>1 世界分布 Cosmopolitan</td><td style='text-align: center;'>28</td><td style='text-align: center;'>16.97</td><td style='text-align: center;'>66</td><td style='text-align: center;'>22.84</td></tr><tr><td style='text-align: center;'>2 泛热带分布 Pantropic</td><td style='text-align: center;'>8</td><td style='text-align: center;'>4.85</td><td style='text-align: center;'>9</td><td style='text-align: center;'>3.11</td></tr><tr><td style='text-align: center;'>4 旧世界热带分布 Old World Tropics</td><td style='text-align: center;'>3</td><td style='text-align: center;'>1.82</td><td style='text-align: center;'>4</td><td style='text-align: center;'>1.38</td></tr><tr><td style='text-align: center;'>4-1 热带亚洲、非洲和大洋洲间断分布 Trop. Asia, Trop. Afr. and Trop. Australasia disjuncted</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>5 热带亚洲至热带大洋洲分布 Trop. Asia to Trop. Australasia Oceania</td><td style='text-align: center;'>2</td><td style='text-align: center;'>1.21</td><td style='text-align: center;'>2</td><td style='text-align: center;'>0.69</td></tr><tr><td style='text-align: center;'>6 热带亚洲至热带非洲分布 Trop. Asia to Trop. Africa</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>8 北温带分布 N. Temp.</td><td style='text-align: center;'>45</td><td style='text-align: center;'>27.27</td><td style='text-align: center;'>104</td><td style='text-align: center;'>35.99</td></tr><tr><td style='text-align: center;'>8-2 北极---高山分布 Arctic-Alpine</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>8-4 北温带和南温带间断分布 N. Temp.&amp;S. Temp. disjuncted</td><td style='text-align: center;'>13</td><td style='text-align: center;'>7.88</td><td style='text-align: center;'>17</td><td style='text-align: center;'>5.88</td></tr><tr><td style='text-align: center;'>8-5 欧亚和南美温带间断分布 Eurasia &amp;Temp. S. Amer. disjuncted</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>9 东亚和北美洲间断分布 E. Asia &amp;N. Amer. disjuncted</td><td style='text-align: center;'>4</td><td style='text-align: center;'>2.42</td><td style='text-align: center;'>5</td><td style='text-align: center;'>1.73</td></tr><tr><td style='text-align: center;'>9-1 东亚和墨西哥间断分布 E. Asia &amp;Mexico disjuncted</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>10 旧世界温带分布 Old World Temp.</td><td style='text-align: center;'>22</td><td style='text-align: center;'>13.33</td><td style='text-align: center;'>34</td><td style='text-align: center;'>11.76</td></tr><tr><td style='text-align: center;'>10-1 地中海区、西亚和东亚间断分布 Mediterranean, W. Asia &amp;E. Asia disjuncted</td><td style='text-align: center;'>6</td><td style='text-align: center;'>3.64</td><td style='text-align: center;'>7</td><td style='text-align: center;'>2.42</td></tr><tr><td style='text-align: center;'>10-3 欧亚和南部非洲间断分布 Eurasia &amp;S. Afr. disjuncted</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>11 温带亚洲分布 Temp. Asia</td><td style='text-align: center;'>7</td><td style='text-align: center;'>4.24</td><td style='text-align: center;'>11</td><td style='text-align: center;'>3.81</td></tr><tr><td style='text-align: center;'>12 地中海区、西亚至中亚分布 Medit., W. to C. Asia</td><td style='text-align: center;'>2</td><td style='text-align: center;'>1.21</td><td style='text-align: center;'>2</td><td style='text-align: center;'>0.69</td></tr><tr><td style='text-align: center;'>13 中亚分布 C. Asia</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>13-1 中亚东部分布 East C. Asia</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.61</td><td style='text-align: center;'>1</td><td style='text-align: center;'>0.35</td></tr><tr><td style='text-align: center;'>14 东亚分布 E. Asia</td><td style='text-align: center;'>7</td><td style='text-align: center;'>4.24</td><td style='text-align: center;'>10</td><td style='text-align: center;'>3.46</td></tr><tr><td style='text-align: center;'>15 中国特有分布 Endemic to China</td><td style='text-align: center;'>10</td><td style='text-align: center;'>6.06</td><td style='text-align: center;'>10</td><td style='text-align: center;'>3.46</td></tr><tr><td style='text-align: center;'>总计 Total</td><td style='text-align: center;'>165</td><td style='text-align: center;'>100.00</td><td style='text-align: center;'>289</td><td style='text-align: center;'>100.00</td></tr></table>

ChatGPT

ChatGPT好像把中英文分离开来了，我们肉眼能察觉到原图第一列是中文+英文，ChatGPT硬是要把它们分成两列😂

Gemini

Gemini的识别准确性和排版都符合要求，但表头这行的英文被它用括号括起来了。如果按照"英文要用括号括起来"的标准来看，它又没有给第一列的英文加上括号。

从严格遵守原图内容的角度来说，Gemini有一点点自作聪明了。

豆包

豆包的识别准确率和排版都没问题，唯一一个问题是表头第一列的"Distribution types"这个词不见了。

排名

在"拍糊的表格"的测试中，我给出的排名：

PaddleOCR VL
Gemini
豆包
ChatGPT

数学公式识别

进入专业领域。数学公式包含了大量特殊符号、上下标，是OCR识别的噩梦。这次我们使用印刷体，看看谁能攻克这个难关。

PaddleOCR VL

PaddleOCR-VL返回的结果 ⬇️

scss 复制代码

$$ \begin{array}{rcl}\mathfrak{p}v&=&\displaystyle\sum {x\ in \mathcal{X}}f{x}^{p,e}(v(x))&=&\displaystyle\sum {x\ in \mathcal{X}}(c{x}^{p,e}+d {x}^{p,e}\cdot v(x))&=&\displaystyle\ sum{x\in\mathcal{X}}(c {x}^{p,e}+d{x}^{p,e}\cdot\sum {\alpha\ in \mathsf{CP}(R)}\theta{\alpha}\cdot\alpha(x))&=&\displaystyle\sum {\alpha\ in \mathsf{CP}(R)}\theta{\alpha}\sum {x\ in \mathcal{X}}c{x}^{p,e}+\sum {\alpha\ in \mathsf{CP}(R)}\theta{\alpha}\sum {x\ in \mathcal{X}}d{x}^{p,e}\cdot\alpha(x)\quad(\mathrm{from}\sum {\alpha\ in \mathsf{CP}(R)}\theta{\alpha}=1)&=&\displaystyle\sum {\alpha\ in \mathsf{CP}(R)}\theta{\alpha}(\sum {x\ in \mathcal{X}}c{x}^{p,e}+\sum {x\ in \mathcal{X}}d{x}^{p,e}\cdot\alpha(x)).\end{array} $$

ChatGPT

ChatGPT给出的是LaTeX代码，需要用工具转一遍。