【多模态】29、OCRBench | 为大型多模态模型提供一个 OCR 任务测评基准

文章目录

- 一、背景
- 二、实验
- - [2.1 测评标准和结果](#2.1 测评标准和结果)
  - - [2.1.1 文本识别 Text Recognition](#2.1.1 文本识别 Text Recognition)
    - [2.1.2 场景文本中心的视觉问答 Scene Text-Centric VQA](#2.1.2 场景文本中心的视觉问答 Scene Text-Centric VQA)
    - [2.1.3 文档导向的视觉问答 Document-Oriented VQA](#2.1.3 文档导向的视觉问答 Document-Oriented VQA)
    - [2.1.4 关键信息提取 Key Information Extraction](#2.1.4 关键信息提取 Key Information Extraction)
    - [2.1.5 手写数学公式识别 Handwritten Mathematical Expression Recognition(HMER)](#2.1.5 手写数学公式识别 Handwritten Mathematical Expression Recognition(HMER))
  - [2.2 结果](#2.2 结果)
  - [2.3 OCRBench](#2.3 OCRBench)
- 三、讨论

论文：ON THE HIDDEN MYSTERY OF OCR IN LARGE MULTIMODAL MODELS

代码：https://github.com/Yuliang-Liu/MultimodalOCR

出处：华中科技大学 | 微软等

时间：2024.01

贡献：

本文作者在 5 个和文本相关的任务上测评了 14 个 LMM 的效果
作者提出了 OCRBench 来进一步衡量 LMM 模型的 OCR 能力，OCRBench 包含1000个手工筛选并纠正的问题-答案对儿的集合，涵盖了五项代表性的与文本相关的任务。

chinese OCRBench：https://huggingface.co/datasets/SWHL/ChineseOCRBench

OCRBench 对比板：https://huggingface.co/spaces/echo840/ocrbench-leaderboard

OCRBench 数据集：880 张各个任务组成的数据集

一、背景

大语言模型的成功近期已经扩展到了多模态大模型的成功，催生了很多多模态大模型，包括对比学习和生成式模型，当然 OCR 领域也不例外

Visual instruction tuning $15$ 这篇文章展示了 zero-shot OCR 在室外环境下良好的效果，而且是没有在 OCR domain 数据训练过的模型，这也很好的证明了大多模态模型（LMM）能够很好的处理和文本相关的视觉任务，但该模型不能很好的处理复杂的数据

所以，本文作者在 14个 LMM 模型上测试了 OCR 能力，包括 5 个任务：

text recognition
Scene Text-Centric VQA
Document-Oriented VQA
key information extraction
handwritten mathematical expression recognition

作者发现，尽管很多很好的 LMM 模型在传统的 text 任务上表现的还算好，但在其他复杂的 text 任务的表现很差。SOTA 模型 Gemini $16$ 和 GPT4V $17$ 也很难很好的识别手写数学公式， LMM 模型在模糊文本、首先文本、多语言文本上的表现都不是很好，此外，由于大多模态模型主要还是会依赖语义理解来识别单词，所以会倾向于输出常见的单词。

使用的模型：

为什么作者要提出 OCRBench 呢：

随着大型多模态模型的出现，如何评测这些模型就是一个问题了，Visual instruction tuning $15$ 、mPLUG-Owl $22$ 、 $30$ 中使用 GPT-4 或人工比对来评测 LMM 的输出：

MMBench $31$ ：使用多项选择题在不同能力维度上评估LMM。
MME $32$ ：通过判断真假问题来衡量感知和认知能力。

然而，他们在OCR数据上的测试是有限的。此外，真/假问题或多项选择题无法准确评估OCR在图像中识别文字的能力。

所以本文作者对各种 LMM 在 5 个典型的文本相关的任务上进行了评估

为了进一步评估 LMM 的 OCR 能力，作者收集了一个 OCRBench，包含 1000 个手工筛选的问题-答案 pairs，涵盖了 5 个典型的任务

二、实验

2.1 测评标准和结果

由于 LMM 生成的结果包括很多解释性的术语（就是一些对特定场景进行充分介绍和解释所用到的词语），所以无法使用【精确匹配】或【Average Normalized Levenshtein Similarity(ANLS) 】等常用的衡量方式来衡量 LMM 输出的质量。

所以本文作者为所有数据集定义了一个统一的评估标准： GT 是否出现在 LMM 的输出中

精确匹配（Exact Match）:

精确匹配是一种严格的评估标准，它要求系统生成的输出与参考答案完全一致，即字词顺序和内容都必须与标准答案相同，才能被认为是正确的。这种匹配方式不允许有任何差错，哪怕是最小的拼写或者标点错误。在一些任务中，例如问答系统，如果一个问题的答案是一个具体的事实或者数据，使用精确匹配来评估模型的性能是有意义的。

平均归一化莱文斯坦相似度（ANLS）:

ANLS是基于莱文斯坦距离（Levenshtein Distance）的一种衡量标准，它衡量的是两个字符串之间的差异程度。莱文斯坦距离是指将一个字符串转换成另一个字符串所需要的最少单字符编辑次数，包括插入、删除和替换操作。ANLS将莱文斯坦距离归一化，通常是通过将距离除以两个字符串中较长者的长度，这样得到的数值介于0到1之间，1表示完全相同，0表示完全不同。这种衡量方式比精确匹配要宽松，允许一定程度的差异。在评估模型输出时，尤其是在翻译或文本生成任务中，ANLS可以更好地反映输出文本与参考文本在实际意义上的相似度。

在评估大型多模态模型（LMM）的输出时，由于这些模型可能会生成包含丰富解释性术语的结果，这些结果可能在表达上有所变化但意义相近，因此使用精确匹配可能太过严格，而ANLS虽然允许一定的差异，但在处理解释性文本时可能也不足以全面评价输出的质量。这就需要更复杂的评估方法来衡量模型输出的真实有效性。

ANLS（Average Normalized Levenshtein Similarity）和归一化编辑距离（Normalized Edit Distance）是两种相关但不完全相同的概念，它们都是基于Levenshtein距离，也称为编辑距离，来衡量两个字符串之间的相似性或差异性。

Levenshtein距离是一种字符串度量，用于确定两个序列之间的差异。具体来说，它是将一个字符串转换为另一个所需的单字符编辑（插入、删除或替换）的最小数量。

归一化编辑距离是Levenshtein距离的一个变体，它将得到的编辑距离除以两个字符串中较长者的长度，使得结果是一个介于0和1之间的数值，0表示两个字符串完全相同，而1表示两个字符串完全不同。

ANLS是一种类似的概念，它通常是指将编辑距离归一化的过程，但是具体的计算方法可能有所不同。例如，ANLS可能采用不同的归一化方法，可能考虑字符串的长度或其他因素来计算相似度。

简而言之，ANLS和归一化编辑距离都是基于Levenshtein编辑距离的，但它们的计算方式可能会有细微的差别。具体使用哪种取决于应用场景和所需的精确度。

为了减少 false positives（假阳性），作者过滤掉了数据集中答案少于 4 个符号的问题，此外还从大型数据集中选择了 3000 个问题用于测试。

在自然语言处理和信息检索等领域，假阳性（false positives）是指错误地将非相关或错误的信息识别为正确的结果。在评估语言模型时，尤其是在自动评估回答的正确性时，假阳性会导致评估结果的准确性下降。

作者选择过滤掉答案少于4个符号的问题，可能是基于以下几个原因：

简短答案的歧义性：非常短的答案可能具有高度的歧义性，因为短答案（例如单个字或短语）可能在不同的上下文中有不同的含义。这使得在没有充分上下文的情况下准确评估这些答案变得困难。
增加匹配难度：如果一个答案非常简短，例如只有一个单词或几个字符，那么它可能会在语言模型生成的文本中随机出现，而不是因为模型正确理解了问题。这可能导致评估过程中的假阳性结果增加。
评估方法的限制：某些评估方法，如基于编辑距离（例如Levenshtein距离）的方法，在处理非常短的文本时可能不够准确，因为即使是一个小的变化也会导致很大的相似度比率变化。
提高评估质量：通过排除这些可能导致评估方法产生误判的简短答案，可以提高评估过程的整体质量和可靠性。
确保有意义的评估：更长的答案往往能够提供更多的信息和上下文，有助于更准确地评估模型的性能。简短答案可能无法充分反映模型对问题的理解深度。
因此，排除答案少于4个符号的问题有助于减少评估过程中的噪声，确保评估结果更加准确和有意义。

2.1.1 文本识别 Text Recognition

作者使用了使用广泛的 OCR text recognition 数据集来测评 LMM，包括

Regular Text Recognition: IIIT5K $34$ , SVT $35$ , IC13 $36$
Irregular Text Recognition: IC15 $37$ , SVTP $38$ , CT80 $39$ ,COCOText(COCO) $40$ , SCUT-CTW1500 (CTW) $41$ , Total-Text (TT) $42$
Occlusion Scene Text $43$ ：encompassing weakly occluded scene text (WOST) ， heavily occluded scene text (HOST)
Artistic Text Recognition： WordArt $44$
Handwirtten Text Recognition: IAM $45$
Chinese Text Recognition: ReCTS $46$
Handwritten Digit String Recognition: ORAND-CAR-2014(CAR-A) $47$
Non-Semantic Text (NST) and Semantic Text (ST): LMMs 主要是依赖于对语义的理解来识别单词

作者发现 LMM 在缺乏语义上下文的场景中的识别效果不太好，比如只有公式的场合

为了证明这个结论，作者使用 IIIT5k dictionary 构建了 2 个 datasets：Semantic Text（ST）和 Non-Semantic Text（NST）：

ST：包含 3000 个图片，其中的 words 都是从 IIIT5k dictionary 拿的
NST：包含和 ST 同样的 words，但是打乱顺序了，没有语义信息
对英文 words，作者的 prompt 是 "what is written in the image？"
对于中文 words，prompt 是 "what are the Chinese characters in the image？"
对于手写数字，prompt 是 "what is the number in the image？"

2.1.2 场景文本中心的视觉问答 Scene Text-Centric VQA

"Scene Text-Centric VQA"（场景文本中心的视觉问答）是指一种特定类型的视觉问答任务，其中重点放在理解和回答与图像中的文本内容相关的问题。"场景文本"指的是图片中自然出现的文本，如路标、广告牌、菜单、标签等。

在传统的视觉问答（VQA）任务中，通常要求模型回答与图像内容相关的问题，这些内容可能包括物体、动作、场景、颜色等各种视觉元素。然而，在Scene Text-Centric VQA 中，问题的焦点是图像中的文本信息。这要求模型不仅能够识别和理解图像中的视觉元素，还要能够读取和理解图像中的文本，并结合这两方面的信息来回答问题。

例如，如果给定一张带有商店招牌的图片，一个 Scene Text-Centric VQA 的问题可能是 "这家店主要卖什么？"为了回答这个问题，模型需要能够识别并理解招牌上的文字，并可能需要结合其他视觉线索来提供答案。

这种类型的VQA任务对于机器学习和计算机视觉研究领域来说是具有挑战性的，因为它需要高级的图像处理和自然语言处理能力的结合。

作者测试了 STVQA $48$ , TextVQA $49$ , OCRVQA $50$ 和 ESTVQA $51$ 上测试了 LMM 的效果

场景文本视觉问答（STVQA）包括来自各种公共数据集的 23,000 多张图片上的 31,000 多个问题。
TextVQA数据集包含从特定 OpenImages 数据集类别中抽样的 28,000 多张图片上的 45,000 多个问题，这些类别预计包含文本。
OCRVQA 拥有超过1百万个问题-答案对，涵盖 207,000 多张书籍封面图片。
ESTVQA 包含 20757张图片以及15056个英文问题和13006个中文问题。作者将ESTVQA数据集分为ESTVQA(CN)和ESTVQA(EN)，分别专门包含中文或英文的问题和答案。

2.1.3 文档导向的视觉问答 Document-Oriented VQA

Document-Oriented VQA（文档导向的视觉问答）是指一种专注于处理和理解文档图像内容的视觉问答任务。在这种类型的任务中，问题是关于文档图像中的信息，这些文档可能包括表格、发票、信件、报告、表单等各种印刷或手写的文件。

与场景文本中心的VQA（Scene Text-Centric VQA）不同，Document-Oriented VQA专注于更结构化的文档内容，其中文本的布局和格式对于理解和回答问题至关重要。这种类型的VQA任务要求算法不仅要识别和提取文档中的文本，还要理解文档的结构和语义信息。

例如，在Document-Oriented VQA中，系统可能会被问到："这张发票的总金额是多少？"为了回答这个问题，模型需要能够定位发票上的总金额字段，识别数字，并正确解释该数字的含义。

Document-Oriented VQA是自然语言处理、计算机视觉和机器学习领域的一个重要研究方向，因为它涉及到复杂的文本识别、文档布局分析和理解等问题。这对于自动化文档管理、信息提取和数据分析等应用场景具有重要意义。

作者在 DocVQA $52$ , InfographicVQA $53$ 和 ChartQA $54$ 上测试了效果

DocVQA是一个大规模数据集，包含12,767张不同类型和内容的文档图片，以及50,000多个问题和答案。
InfographicVQA是一个包含5,485张信息图表和总共30,035个问题的多样化集合。
ChartQA包括总共9,608个关于4,804张图表的人工编写的问题，以及基于17,141张图表的人工编写的图表摘要生成的23,111个问题。

2.1.4 关键信息提取 Key Information Extraction

作者在 SROIE $55$ 、FUNSD $56$ 和 POIE $57$ 数据集上进行了实验：

SROIE包含1000张完整的扫描收据图像，用于OCR和关键信息提取效果对比。在这个对比中，需要基于收据提取公司、日期、地址和总支出信息。
FUNSD数据集由199张实际的、完全注释的、可能包含噪声的扫描表格组成。
POIE由产品营养成分标签的英文相机图像组成，收集了3,000张图像，包含111,155个文本实例。KIE数据集要求提取图像中的关键值对。

为了使大型语言模型（LMMs）能够准确地从 KIE 数据集中提取给定键的正确值，作者采用了手动提示设计。

对于SROIE数据集，使用以下提示来帮助LMMs生成"公司"、"日期"、"地址"和"总计"的相应值：

"这张收据是哪家公司开的？"
"这张收据是什么时候开的？"
"这张收据是在哪里开的？"
"这张收据的总金额是多少？"。

此外，为了在 FUNSD 和 POIE 中检索给定键的对应值，作者使用提示："What is the value for '{key}'?"

2.1.5 手写数学公式识别 Handwritten Mathematical Expression Recognition(HMER)

作者在 HME100K $58$ 上测试了相关效果，这个数据集包括 74502 张训练图片，24607 张测试图片，245 个公式类别

在测试时作者使用的 prompt 是 "Please write out the expression of the formula in the image using LaTeX format.".

2.2 结果

表1显示了文本识别的结果。在识别规则文本、不规则文本、被遮挡文本和艺术文本方面，大型语言模型（LMMs）的性能与最新的监督模型相当。即使在主要包含挑战性艺术文本的WordArt数据集中，InstructBLIP2和BLIVA也超越了监督的最新模型的性能。然而，LMMs在识别手写文本、中文文本、手写字符串和非语义文本方面表现不佳。在场景文本中心的视觉问答（VQA）、面向文档的VQA和知识信息提取（KIE）等任务中，输入分辨率较小的LMMs与输入分辨率较大的模型相比，一致地产生了较差的结果。这是因为文本通常包含复杂的结构，并且大小各异，需要LMMs捕捉精细的细节。结果显示在表2中。LMMs在完成识别手写数学表达式的复杂任务方面挣扎。通过广泛分析结果，作者从定性的角度总结了LMMs在文本任务中的局限性：

1、语义依赖性

当遇到缺乏语义意义的字符组合时，大型语言模型（LMMs）表现出较差的识别性能。

当改变每个单词中字母的顺序时，LMMs 在NST数据集上的准确率平均下降了57.0%，而最新的场景文本识别方法仅下降了大约 4.6%。

作者认为这是因为场景文本识别的最新方法直接识别每个字符，语义信息只是用来辅助识别过程，而LMMs主要依赖于语义理解来识别单词。这一发现进一步得到了在ORAND数据集上观察到的低准确率的支持。

如图1所示，LMM成功识别了单词"Message"，但错误地识别了"egaesMs"，这是单词"Message"的字母重新排列版本。

2、手写文本

由于包括手写字母和数字之间的形状相似性在内的各种原因，LMMs 在准确识别手写文本方面表现不好。

由于书写速度、不规则的书写或低质量的纸张等因素，手写文本通常看起来不完整或模糊。

平均的话，LMMs在这项任务上的表现比有监督的最新模型差51.9%。

3、多语言文本

LMMs 在 ReCTS、ESTVQA(En) 和 ESTVQA(Ch) 上的表现说明，LMM 在中文上的表现不及预期，如表1和表2所示。在LMMs中，很难准确识别中文单词或回答中文问题。

Monkey 在中文场景中的表现优于其他 LMMs，这是由于其 LLM 和视觉编码器在大量中文数据上进行了训练

4、细粒度感知。

目前，大多数 LMMs 的输入图像分辨率限制为 224 x 224，与它们架构中使用的视觉编码器的输入尺寸一致。然而，高分辨率输入图像能够捕捉图像中更多的细节。

由于像 BLIP2 这样的 LMMs 输入分辨率的限制，它们在场景文本中心的VQA、面向文档的VQA和KIE等任务中提取细粒度信息的能力受到限制。

然而，像Monkey这样可以支持1344×896分辨率的LMMs，在这些特定任务中表现出了更好的性能。

5、HMER

由于存在凌乱的手写字符、复杂的空间结构和间接的 LaTeX 表示，LMMs难以识别手写数学表达式。缺乏针对手写数学表达式识别任务的训练数据也是一个关键因素。

2.3 OCRBench

评估多个数据集非常耗时，而且某些数据集中的不准确标注使得基于准确性的评估变得不那么精确。

所示作者收集了一个标准测评基准：OCRBench，以便准确和方便地评估LMMs的OCR能力。

OCRBench包含五个组成部分，包括1000个问题-答案对：

文本识别
场景文本中心的VQA
面向文档的VQA
KIE：且对于KIE任务，作者添加了提示"直接使用图像中的文本回答这个问题。"来限制模型的响应格式
HMER

结果见表 3 ，Gemini获得了最高分，GPT4V 位居第二（而且由于 OPEN AI 的严格安全审查，GPT4V 拒绝提供 OCRBench 中 84 张图片的结果）。

Monkey展示的 OCR能力仅次于 GPT4V 和 Gemini。从测试结果来看，即使是像GPT4V和Gemini这样的最先进模型也在 HMER 任务上挣扎。此外，它们在处理不清晰的图像、手写文本、非语义文本以及遵守任务指令方面也面临挑战。如图2(g)所示，即使明确要求使用图像中找到的文本回答问题，Gemini也一致地将"02/02/2018"解释为"2018年2月2日"。

三、讨论

大型多模态模型（LMM）之所以能在 OCR 任务中表现出较好的性能，一个可能的解释是这些模型（类似于CLIP）的训练中包含了一些OCR数据。然而，训练数据中的无监督文本-图像对与全监督数据相比还是有差距。

从网络的角度来看，视觉编码器和大型语言模型（LLM）预训练模型已经在各自的领域数据中展现出了强大的掌握能力，每个模型都在其结构化的特征空间内运作。这些LMM通过诸如线性投影层这样的组件来桥接视觉和语言信息，该层功能类似于视觉标记化的步骤。这个过程将视觉标记与预训练语言模型的词嵌入空间对齐，从而产生与对应词嵌入紧密相连的视觉嵌入。这种对齐促进了文本识别，LLM随后以生成性的方式将这些OCR数据展示给用户。

未来的研究可以通过剥离分析来了解多模态训练数据量对OCR性能的影响。

未来方向：这些模型应该专注于提炼在图像中检测细粒度特征的能力，增强对单个字符形状的理解，并构建用于训练的多语言数据。

最近的研究，例如ICL-D3IE $59$ ，引入了一个利用像GPT-3和ChatGPT这样的大型语言模型的上下文学习框架，用于文档信息提取。这种方法有效地解决了在这一领域的模态差异和任务差异，能够从难以训练的文档中提取出具有挑战性和独特性的段落，设计关系演示以增强位置理解，并融入格式演示以提取答案。尽管在不同的数据集和设置中取得了显著的成功，ICL-D3IE在CORD $60$ 的领域内设置中遇到了挑战。这一结果指向了大型语言模型在处理视觉复杂文档的任务中的潜力，并鼓励开发新颖的、最少监督的OCR技术。

此外， $61$ 评估了ChatGPT在七个详细的信息提取任务中的表现。这一评估揭示了ChatGPT在OpenIE设置中表现良好，生成高质量的响应，显示出过度自信的倾向，并且对原始文本保持了强烈的忠实度。然而，这项研究专门关注纯文本，没有涉及OCR领域内的视觉丰富文档文本。因此，未来的研究应该探索ChatGPT在这些视觉丰富的环境中的表现。

在专业领域中应用大型语言模型（LMMs）也是一个关键的领域，最近的发展显示了它们巨大的潜力。谷歌开发的一个此类模型是Med-PaLM2 $62$ ，它在PaLM2的医学知识上进行了微调。它是第一个在美国医学执照考试（USMLE）风格的问题上表现出专家级别的语言模型，并且可以通过医学图像分析病人的状况，包括平片和乳房X光片。谷歌声称其性能已接近临床专家。此外，LLaVA-Med $63$ 尝试将多模态指令调整扩展到生物医学领域，并展示出具有领域知识的出色聊天能力。这些研究突出了LMM在垂直领域任务中的潜力。进一步探索它们在其他领域如游戏和教育中的应用也是值得的。

最终，这些发展和未来的研究方向可能会为多模态模型铺平道路，这些模型可以更有效地处理像OCR这样的复杂任务，扩大了LMM的应用范围。