Donut:无OCR文档理解Transformer理解文档图像(例如发票)是一项核心但具有挑战性的任务,因为它需要复杂的功能,例如读取文本和对文档的整体理解。目前的视觉文档理解(VDU)方法将读取文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于使用OCR输出进行理解任务。尽管这种基于OCR的方法表现出了有前景的效果,但它们面临着以下问题:1)使用OCR的计算成本高;2)OCR模型对语言或文档类型的不灵活;3)OCR错误的传播影响后续过程。为了解决这些问题,本文提出了一种新颖的无OCR VDU模型,名为Donut,即文档理解Transformer