TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

相关链接：arxiv github

关键字：Large Multimodal Model 、OCR-Free 、Document Understanding 、Text-Centric Tasks 、Token Resampling

摘要

我们提出了TextMonkey，这是一个为文本中心任务量身打造的大型多模态模型(LMM)，包括文档问题回答(DocVQA)和场景文本分析。本文介绍了几种改进方法：采用偏移窗口注意力机制和零初始化，我们实现了在更高输入分辨率下的跨窗口连接，并稳定了早期的培训；我们假设图像可能包含多余的代币，并通过使用相似度筛选出重要的代币，我们不仅可以简化代币长度，还可以提高模型的性能。此外，通过扩展我们模型的能力，涵盖文本定位和基础设施，并将位置信息纳入答案，我们提高了可解释性，并最大限度地减少了错觉。此外，TextMonkey还可以通过微调来理解屏幕截图点击的命令。总的来说，我们的方法在各种基准数据集中的性能都得到了显著的提升，分别在场景文本中心VQA，面向文档的VQA和KIE中提高了5.2%，6.9%和2.8%，特别是在OCRBench上的得分为561，超过了以前的开放源码大型多模态模型文档理解。代码将在 https://github.com/Yuliang-Liu/Monkey 上发布。

核心方法

改进的输入处理策略：TextMonkey采用滑动窗口方法将高分辨率图像划分为窗口块，并利用偏移窗口注意力机制通过零初始化实现跨窗口连接。
代币压缩：通过相似度作为标准，找出重要的代币作为查询，减少了不必要的代币长度，提高了模型性能。
文本定位任务支持：模型扩展了处理任务到文本定位，通过将位置线索纳入答案提高了模型的可靠性和可操作性。
丰富的文本中心多任务处理能力：包括文本接地和文本定位在内的各类文本相关任务的支持。
开源代码发布：代码将在github上提供，以促进其它研究者的进一步工作和模型的应用。

实验说明

TextMonkey在多个基准数据集上的表现是：

Method	Scene Text-Centric VQA	Document-Oriented VQA	KIE	OCRBench
TextMonkey	61.2%	64.3%	72.2%	558
Other Models	59.6 - 62.2%	59.8 - 66.7%	49.3 - 71.3%	511 - 561

重新调整数据集来训练模型后，TextMonkey的文档表现有所提高，尤其是在对文档特定内容的理解和解析能力上提供了明显的改善。

结论

TextMonkey作为一个OCR-Free的大型多模态模型，成功应对了各种文本中心的任务，如文档问题回答和场景文本分析。在多个基准数据集上的表现均显著提升，特别是在OCRBench中，显著超过了以往的开放源码模型。通过结合偏移窗口注意力和代币重采样，该模型展示了其在处理高分辨率文档图片时的高效性和稳定性。随着代码的公开发布，我们期待TextMonkey能够对不同领域的研究者产生更大的影响，并在多模态理解领域中获得进一步应用。