论文基础信息如下
-
LayoutLM: Pre-training of Text and Layout for Document Image Understanding
0 ABSTRACT
在过去的几年中,预训练技术在各种自然语言处理(NLP)任务中已经取得了成功。尽管预训练模型在NLP应用中被广泛使用,但它们几乎完全专注于文本级别的操作,而忽视了对于文档图像理解至关重要的布局和样式信息。在本文中,我们提出了LayoutLM,用于在扫描文档图像中共同建模文本和布局信息之间的交互作用,这对于许多真实世界的文档图像理解任务(如从扫描文档中提取信息)是有益的。此外,我们还利用图像特征将单词的视觉信息合并到LayoutLM中。据我们所知,这是文档级别预训练的第一次尝试,在单个框架中联合学习文本和布局信息。它在多个下游任务中实现了新的最先进结果,包括表单理解(从70.72提高到79.27)、收据理解(从94.02提高到95.24)和文档图像分类(从93.07提高到94.42)。
1 INTRODUCTION
Document AI,或称为文档智能,是一个相对较新的研究领域,涉及到自动读取、理解和分析商业文档的技术。商业文档是提供与公司内部和外部交易相关细节的文件,如图1所示。它们可能是数字出生的,以电子文件的形式存在,也可能是扫描的,来源于书面或纸质印刷。一些常见的商业文档示例包括采购订单、财务报告、商业电子邮件、销售协议、供应商合同、信函、发票、收据、简历等等。商业文档对于公司的效率和生产力至关重要。商业文档的确切格式可能有所不同,但信息通常以自然语言呈现,并可以以各种方式组织,包括纯文本、多列布局以及各种表格/表单/图表。由于布局和格式的多样性、扫描文档图像的质量不佳以及模板结构的复杂性,理解商业文档是一项非常具有挑战性的任务。
现今,许多公司通过耗时且昂贵的手动工作从商业文件中提取数据,同时需要手动定制或配置。通常,需要为每种类型的文档硬编码规则和工作流程,并随着特定格式的更改或处理多种格式的情况进行更新。为了解决这些问题,文档AI模型和算法被设计为能够自动对商业文档进行分类、提取和结构化信息,加速自动化文档处理工作流程。
当代的文档AI方法通常建立在深度神经网络的基础上,从计算机视觉的角度或自然语言处理的角度或二者的结合来实现。早期的尝试通常集中在检测和分析文档的某些部分,例如表格区域。例如,[7]首次提出了一种基于卷积神经网络(CNN)的PDF文档的表格检测方法。之后,[21、24、29]还采用了更先进的Faster R-CNN模型[19]或Mask R-CNN模型[9],以进一步提高文档布局分析的准确性。此外,[28]提出了一种端到端的、多模态的、全卷积网络,用于从文档图像中提取语义结构,利用了来自预训练的自然语言处理模型的文本嵌embedding。最近,[15]引入了一种基于图卷积网络(GCN)的模型,用于结合文本和视觉信息,用于从商业文件中提取信息。尽管这些模型在文档AI领域使用深度神经网络取得了显著进展,但大多数这些方法面临两个限制:(1)它们依赖于少数人工标记的训练样本,未充分探索使用大规模未标记训练样本的可能性。(2)它们通常利用预训练的CV模型或NLP模型,但不考虑文本和布局信息的联合训练。因此,研究如何通过文本和布局的自监督预训练来帮助文档AI领域至关重要。
为此,我们提出了LayoutLM,这是一种针对文档图像理解任务的简单而有效的文本和布局预训练方法。受到BERT模型的启发,其中输入文本信息主要由文本embedding和位置embedding表示,LayoutLM进一步添加了两种类型的输入embedding:(1) 2-D位置embedding,表示文档中标记的相对位置;(2) 用于文档内扫描标记图像的图像embedding。LayoutLM的架构如图2所示。我们添加了这两种输入embedding,因为2-D位置embedding可以捕捉文档内标记之间的关系,而图像embedding可以捕捉一些外观特征,如字体方向、类型和颜色。此外,我们采用了LayoutLM的多任务学习目标,包括遮挡的视觉语言模型(MVLM)损失和多标签文档分类(MDC)损失,进一步强化了文本和布局的联合预训练。在这项工作中,我们的重点是基于扫描文档图像的文档预训练,而数字出生的文档不太具有挑战性,因为它们可以被视为OCR不需要的特殊情况,因此不在本文的范围之内。具体来说,LayoutLM在IIT-CDIP Test Collection 1.02上进行了预训练,该集合包含超过600万份扫描文档,包括1100万个扫描文档图像。这些扫描文档涵盖了各种类别,包括信件、备忘录、电子邮件、文件夹、表格、手写、发票、广告、预算、新闻文章、演示文稿、科学出版物、问卷调查、简历、科学报告、规范等等,非常适合大规模自监督预训练。我们选择了三个基准数据集作为下游任务,以评估预训练的LayoutLM模型的性能。第一个是FUNSD数据集,用于空间布局分析和表单理解。第二个是SROIE数据集,用于扫描收据信息提取。第三个是RVL-CDIP数据集,用于文档图像分类,包含16个类别的40万个灰度图像。实验表明,预训练的LayoutLM模型在这些基准数据集上明显优于几个SOTA预训练模型,证明了在文档图像理解任务中预训练文本和布局信息的巨大优势。
本文的贡献总结如下:
• 首次在单一框架中对来自扫描文档图像的文本和布局信息进行了预训练。还利用图像特征取得了新的最先进的结果。 • LayoutLM使用遮挡的视觉语言模型和多标签文档分类作为训练目标,在文档图像理解任务中明显优于几个SOTA预训练模型。 • 代码和预训练模型可在aka.ms/layoutlm上公开...
2 LAYOUTLM
在这一部分,我们简要回顾了BERT模型,并介绍了我们如何在LayoutLM框架中扩展以共同建模文本和布局信息。
2.1 The BERT Model
BERT模型是一种基于注意力机制的双向语言建模方法。已经验证了BERT模型通过大规模训练数据的自监督任务有效地进行知识传递。BERT的架构基本上是一个多层的双向Transformer编码器。它接受一系列标记并堆叠多个层以生成最终的表示。具体而言,对于使用WordPiece处理的标记集,输入embedding是通过将相应的 word embeddings, position embeddings, and segment embeddings 相加来计算的。然后,这些输入embeddings 通过多层双向Transformer传递,可以使用自适应注意机制生成 contextualized representations 。
BERT框架分为两个步骤:预训练和微调。在预训练期间,该模型使用两个目标来学习语言表示:掩码语言建模(MLM)和下一句预测(NSP),其中MLM随机掩盖了一些输入标记,目标是恢复这些被掩盖的标记,而NSP是一个二元分类任务,将一对句子作为输入,并分类它们是否是两个连续的句子。在微调中,使用特定于任务的数据集以端到端的方式更新所有参数。BERT模型已成功应用于一系列自然语言处理任务。
2.2 The LayoutLM Model
虽然类似BERT的模型已经成为了一些具有挑战性的自然语言处理任务的最先进技术,但它们通常仅针对文本信息进行建模。然而,在涉及到信息丰富的视觉文档时,可以将更多信息编码到预训练模型中。因此,我们提出利用来自文档布局的信息丰富的视觉信息,并将其与输入文本对齐。基本上,有两种类型的特征可以显著改善信息丰富的文档中的语言表示,它们是:
-
Layout Information(布局信息):文档的布局信息包括页面结构、段落、标题、列表、表格等元素的位置和排列方式。这些信息可以帮助模型理解文档的结构,以及不同文本块之间的关系。例如,模型可以通过布局信息知道哪些文本是标题,哪些文本是正文,从而更好地理解文档的语义。
-
Visual Features(视觉特征):文档中的文本通常具有不同的字体、颜色、大小和样式等视觉特征。这些视觉特征可以提供关于文本的额外信息,例如文本的重要性、强调程度或其他语义信息。将视觉特征与文本关联起来可以丰富语言表示。
通过结合文本信息、布局信息和视觉特征,可以更全面地理解信息丰富的文档,从而提高文档理解任务的性能。这是LayoutLM模型的核心思想:
文档布局信息:文档中的单词相对位置对语义表示有很大的贡献。以表单理解为例,给定表单中的一个关键词(例如,"护照号码:"),其相应的值更有可能出现在其右边或下方,而不是在左边或上方。因此,我们可以将这些相对位置信息embedding为2-D位置表示。基于Transformer内部的自注意机制,将2-D位置特征embedding到语言表示中将更好地将布局信息与语义表示对齐。
视觉信息:与文本信息相比,视觉信息是文档表示中另一个非常重要的特征。通常,文档包含一些视觉信号,以显示文档段落的重要性和优先级。视觉信息可以通过图像特征表示,并在文档表示中得到有效利用。对于文档级别的视觉特征,整个图像可以表示文档的布局,这对于文档图像分类是一种重要特征。对于单词级别的视觉特征,如粗体、下划线和斜体等样式,对于序列标记任务也具有重要意义。因此,我们认为将图像特征与传统的文本表示相结合,可以为文档带来更丰富的语义表示。
2.3 Model Architecture
为了利用现有的预训练模型并适应文档图像理解任务,我们使用了BERT架构作为骨干,并添加了两个新的输入embedding:a 2-D position embedding and an image embedding.
2-D位置embedding。与用于模型单词在序列中位置的位置embedding不同,2-D位置embedding旨在模拟文档中的相对空间位置。为了表示扫描文档图像中元素的空间位置,我们将文档页视为一个以左上角为原点的坐标系。在此设置中,边界框可以通过(x0,y0,x1,y1)精确定义,其中(x0,y0)对应于边界框的左上位置,而(x1,y1)表示边界框的右下位置。我们添加了四个位置embedding层,每个embedding层都有两个embedding表,表示相同维度的embedding层共享相同的embedding表。这意味着我们在embedding表X中查找x0和x1的位置embedding,并在表Y中查找y0和y1。
图像embedding。为了利用文档的图像特征并将图像特征与文本对齐,我们添加了一个图像embedding层来表示语言表示中的图像特征。更详细地说,对于来自OCR结果的每个单词的边界框,我们将图像分割成若干部分,它们与单词具有一一对应关系。我们使用Faster R-CNN模型生成这些图像片段的图像区域特征,作为标记图像embedding。对于[CLS]标记,我们还使用Faster R-CNN模型生成embedding,使用整个扫描文档图像作为兴趣区域(ROI)来为需要[CLS]标记表示的下游任务提供帮助。
2.4 Pre-training LayoutLM
任务1:Masked Visual-Language Model(MVLM)。受到掩码语言模型的启发,我们提出了Masked Visual-language Model(MVLM)来利用2-D位置embedding和文本embedding的线索学习语言表示。在预训练期间,我们随机地掩盖了一些输入标记,但保留了相应的2-D位置embedding,然后训练模型以根据上下文预测被掩盖的标记。通过这种方式,LayoutLM模型不仅理解了语言上下文,还利用了相应的2-D位置信息,从而弥合了视觉和语言模态之间的差距。
任务2:多标签文档分类。对于文档图像理解,许多任务要求模型生成高质量的文档级表示。由于IIT-CDIP测试集中包含每个文档图像的多个标签,因此我们在预训练阶段还使用多标签文档分类(MDC)损失。给定一组扫描文档,我们使用文档标签来监督预训练过程,以便模型可以将来自不同领域的知识进行聚类,并生成更好的文档级表示。由于MDC损失需要每个文档图像的标签,而较大的数据集可能没有这些标签,因此它在预训练期间是可选的,并且可能不会用于将来的大型模型的预训练。我们将在第3节中比较MVLM和MVLM+MDC的性能。
2.5 Fine-tuning LayoutLM
预训练的LayoutLM模型在三个文档图像理解任务上进行了微调,包括表单理解任务、收据理解任务以及文档图像分类任务。对于表单理解和收据理解任务,LayoutLM为每个标记预测{B,I,E,S,O}标签,并使用序列标记来检测数据集中的每种实体类型。对于文档图像分类任务,LayoutLM使用[CLS]标记的表示来预测类标签。
3 EXPERIMENTS
3.1 Pre-training Dataset
预训练模型的性能很大程度上取决于数据集的规模和质量。因此,我们需要一个大规模的扫描文档图像数据集来对LayoutLM模型进行预训练。我们的模型在IIT-CDIP测试集1.0上进行了预训练,该数据集包含超过600万个文档,共有超过1100万个扫描文档图像。此外,每个文档都有其对应的文本和存储在XML文件中的元数据。文本是通过将OCR应用于文档图像生成的内容。元数据描述了文档的属性,如唯一标识和文档标签。尽管元数据包含了错误和不一致的标签,但这个大规模数据集中的扫描文档图像非常适合用于我们模型的预训练。
3.2 Fine-tuning Dataset
FUNSD数据集。我们在FUNSD数据集上评估了我们的方法,该数据集用于在嘈杂的扫描文档中进行表单理解。该数据集包括199个真实的、完全注释的扫描表单,共包含9,707个语义实体和31,485个单词。这些表单被组织为一系列相互关联的语义实体。每个语义实体包括唯一标识符、标签(即问题、答案、标题或其他)、边界框、与其他实体的链接列表以及单词列表。数据集分为149个训练样本和50个测试样本。我们采用单词级F1得分作为评估指标。
SROIE数据集。我们还在SROIE数据集上评估我们的模型,用于收据信息提取(任务3)。该数据集包含626个用于训练的收据和347个用于测试的收据。每个收据都组织成一个带有边界框的文本行列表。每个收据都标有四种类型的实体,即{公司、日期、地址、总额}。评估指标是实体识别结果的精确匹配F1得分。
RVL-CDIP数据集。RVL-CDIP数据集包含16个类别的40万幅灰度图像,每个类别包含25,000幅图像。共有320,000个训练图像、40,000个验证图像和40,000个测试图像。这些图像已调整大小,使其最大尺寸不超过1,000像素。16个类别包括{信件、表格、电子邮件、手写、广告、科技报告、科技出版物、规范、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历、备忘录}。评估指标是总体分类准确率。
3.3 Document Pre-processing
为了利用每个文档的布局信息,我们需要获取每个标记的位置信息。然而,预训练数据集(IIT-CDIP测试集)仅包含纯文本,而缺少其对应的边界框信息。在这种情况下,我们需要重新处理扫描文档图像以获取必要的布局信息。与IIT-CDIP测试集的原始预处理类似,我们同样通过对文档图像应用OCR来处理数据集。不同之处在于,我们获取了识别出的单词以及它们在文档图像中的位置信息。借助于Tesseract6,一个开源的OCR引擎,我们可以轻松获取识别结果以及2-D位置信息。我们将OCR结果存储在hOCR格式中,这是一种标准规范格式,清晰地定义了一个单个文档图像的OCR结果,使用分层表示。
3.4 Model Pre-training
我们使用预训练的BERT基础模型来初始化LayoutLM模型的权重。具体来说,我们的BASE模型具有相同的体系结构:12层Transformer,隐藏大小为768,具有12个注意头,包含约113M参数。因此,我们使用BERT基础模型来初始化我们模型中的所有模块,除了2-D位置embedding层。对于LARGE设置,我们的模型具有24层Transformer,隐藏大小为1,024,具有16个注意头,它是由预训练的BERT LARGE模型初始化的,包含约343M参数。遵循[4]的方法,我们选择15%的输入标记进行预测。我们将这些蒙面标记80%的时间替换为[MASK]标记,10%的时间替换为随机标记,10%的时间保持不变。然后,模型使用交叉熵损失来预测相应的标记。
此外,我们还添加了4个embedding表示(x0、y0、x1、y1)的2-D位置embedding层,其中(x0、y0)对应于边界框中左上角的位置,(x1、y1)表示边界框右下角的位置。考虑到文档布局在不同页面大小上可能会有所不同,我们将实际坐标缩放到"虚拟"坐标:实际坐标被缩放为在0到1,000之间的值。此外,我们还使用ResNet-101模型作为Faster R-CNN模型的骨干网络,该模型在Visual Genome数据集上进行了预训练。
We train our model on 8 NVIDIA Tesla V100 32GB GPUs with a total batch size of 80. The Adam optimizer is used with an initial learning rate of 5e-5 and a linear decay learning rate schedule. The BASE model takes 80 hours to finish one epoch on 11M documents, while the LARGE model takes nearly 170 hours to finish one epoch.
3.5 Task-specific Fine-tuning
We evaluate the LayoutLM model on three document image understanding tasks: Form Understanding, Receipt Understanding, and Document Image Classification. We follow the typical finetuning strategy and update all parameters in an end-to-end way on task-specific datasets.
Form Understanding(表单理解): 这项任务要求从扫描的表单图像中提取和结构化文本内容。其目标是从扫描的表单图像中提取键-值对。具体而言,这项任务包括两个子任务:语义标记和语义链接。语义标记是将单词聚合为语义实体并为它们分配预定义的标签的任务。语义链接是预测语义实体之间的关系的任务。在这项工作中,我们专注于语义标记任务,而语义链接不在范围内。为了在这项任务上对LayoutLM进行微调,我们将语义标记视为序列标记问题。我们将最终表示传递到一个线性层,然后是一个softmax层,以预测每个标记的标签。模型进行了100个epochs的训练,批量大小为16,学习率为5e-5。
Receipt Understanding(收据理解): 这项任务要求根据扫描的收据图像填写预定义的语义槽。例如,给定一组收据,我们需要填写特定的槽(例如,公司、地址、日期和总额)。与需要标记所有匹配实体和键值对的表单理解任务不同,语义槽的数量是固定的,具有预定义的键。因此,模型只需要使用序列标记方法预测相应的值。
Document Image Classification(文档图像分类): 对于给定的视觉丰富文档,这项任务旨在预测每个文档图像的相应类别。与现有的基于图像的方法不同,我们的模型使用了LayoutLM中的多模态架构,包括文本和布局信息,而不仅仅是图像表示。因此,我们的模型可以更有效地结合文本、布局和图像信息。为了在这项任务上对我们的模型进行微调,我们将来自LayoutLM模型和整个图像embedding的输出进行串联,然后使用softmax层进行类别预测。我们对模型进行了30个epochs的微调,批量大小为40,学习率为2e-5。
3.6 Results
在表单理解任务中,我们在FUNSD数据集上进行了评估。 实验结果如表1所示。我们将LayoutLM模型与两种最先进的预训练NLP模型进行了比较:BERT和RoBERTa。BERT BASE模型在F1上达到0.603,而LARGE模型在F1上达到0.656。与BERT相比,RoBERTa在这个数据集上表现得更好,因为它是使用更多epochs的更大数据进行训练的。由于时间有限,我们为LayoutLM提供了4个设置,分别是500K个文档页面与6个epochs、1M个文档页面与6个epochs、2M个文档页面与6个epochs以及11M个文档页面与2个epochs。观察到,LayoutLM模型大大优于现有的SOTA预训练基线。在BASE架构下,使用1100万训练数据的LayoutLM模型在F1上达到了0.7866,远高于具有相似参数大小的BERT和RoBERTa。此外,我们还在预训练步骤中添加了MDC损失,它在FUNSD数据集上带来了显著的改进。最后,当同时使用文本、布局和图像信息时,LayoutLM模型达到了0.7927的最佳性能。
此外,我们还在FUNSD数据集上评估了具有不同数据和epochs的LayoutLM模型,如表2所示。对于不同的数据设置,可以看到随着在预训练步骤中进行更多epochs的训练,整体准确性呈单调增加趋势。此外,随着更多数据被输入到LayoutLM模型中,准确性也得到了提高。由于FUNSD数据集只包含149张图像进行微调,这些结果证实了文本和布局的预训练对于扫描文档理解尤其是在资源有限的情况下是有效的。
此外,我们比较了不同的LayoutLM模型初始化方法,包括从头开始、BERT和RoBERTa。表3中的结果显示,使用RoBERTaBASE初始化的LayoutLMBASE模型在F1上优于BERTBASE2.1个点。对于LARGE设置,使用RoBERTaLARGE初始化的LayoutLMLARGE模型在BERTLARGE模型的基础上提高了1.3个点。在未来,我们将使用RoBERTa作为初始化来预训练更多的模型,尤其是对于LARGE设置。
Receipt Understanding. 我们使用SROIE数据集评估了收据理解任务。 结果如表4所示。由于我们只测试了SROIE中的关键信息提取任务,因此我们希望消除不正确的OCR结果对性能的影响。因此,我们通过使用地面真实OCR来预处理训练数据,并运行一组实验,使用基线模型(BERT和RoBERTa)以及LayoutLM模型。结果显示,经过11M个文档图像训练的LayoutLMLARGE模型实现了0.9524的F1分数,明显优于竞赛排行榜的第一名。这个结果也验证了预训练的LayoutLM不仅在领域内数据集(FUNSD)上表现出色,而且在像SROIE这样的领域外数据集上也优于几个强基线模型。
文档图像分类。最后,我们使用RVL-CDIP数据集评估文档图像分类任务。 文档图像与其他自然图像不同,因为文档图像中的大多数内容都是以各种样式和布局呈现的文本。传统上,使用预训练的基于图像的分类模型要比基于文本的模型表现得更好,如表5所示。我们可以看到,无论是BERT还是RoBERTa都表现不如基于图像的方法,说明仅使用文本信息对于这个任务是不足够的,仍然需要布局和图像特征。我们通过使用LayoutLM模型来解决这个问题。结果显示,即使没有图像特征,LayoutLM仍然优于基于图像的方法的单一模型。在集成图像embedding后,LayoutLM实现了94.42%的准确性,明显优于文档图像分类的几个SOTA基线模型。我们观察到我们的模型在"电子邮件"类别表现最好,而在"表格"类别表现最差。我们将进一步研究如何充分利用预训练的LayoutLM和图像模型,并在LayoutLM模型的预训练步骤中加入图像信息。
4 RELATED WORK
文件分析与识别(DAR)的研究可以追溯到20世纪90年代初。主流方法可以分为三类:基于规则的方法、传统机器学习方法和深度学习方法。
4.1 Rule-based Approaches
基于规则的方法[6, 13, 18, 23]包括两种类型的分析方法:自底向上和自顶向下。自底向上方法[5, 13, 23]通常将文档图像中的黑色像素的连通分量视为基本的计算单元,文档分割过程是通过不同的启发式方法将它们组合成更高级的结构,并根据不同的结构特征进行标记。Docstrum算法[18]是最早成功的基于自底向上方法的算法之一,它基于连通分量分析将它们分组在一个极坐标结构上以得出最终的分割。[23]使用不同组件之间的特殊距离度量来构建物理页面结构。他们通过使用启发式方法和路径压缩算法进一步降低了时间复杂度。
自顶向下方法通常将页面递归地划分为列、块、文本行和标记。[6]提出用来自所有像素的黑色像素替代基本单元,并使用递归的X-Y切割算法将文档分解为X-Y树,使复杂的文档更容易分解。尽管这些方法在某些文档上表现良好,但它们需要大量的人力工作来找出更好的规则,有时不能推广到来自其他来源的文档。因此,在DAR研究中使用机器学习方法是不可避免的。
4.2 Machine Learning Approaches
随着传统机器学习的发展,统计机器学习方法[17, 22]在过去十年中已经成为文档分割任务的主流方法。[22]将文档的布局信息视为一个解析问题,并基于基于语法的损失函数全局搜索最佳的解析树。他们利用机器学习方法来选择特征并在解析过程中训练所有参数。与此同时,人工神经网络[17]已广泛应用于文档分析和识别领域。大部分工作都集中在识别独立的手写和印刷字符上,取得了广泛认可的成功结果。除了ANN模型,SVM和GMM[27]也已经用于文档布局分析任务中。对于机器学习方法,它们通常需要耗费大量时间来设计手工制作的特征,并且很难获取高度抽象的语义上下文。此外,这些方法通常依赖视觉线索,但忽略了文本信息。
4.3 Deep Learning Approaches
近年来,深度学习方法已经成为许多机器学习问题的主流和事实标准。从理论上讲,它们可以通过堆叠多层神经网络来拟合任意的函数,并且已经在许多研究领域证明了其有效性。[28]将文档语义结构提取任务视为逐像素分类问题。他们提出了一个多模态神经网络,考虑了视觉和文本信息,但该工作的局限性在于它们仅将网络用于辅助启发式算法以对候选边界框进行分类,而不是端到端的方法。[26]提出了一种轻量级的文档布局分析模型,适用于移动和云服务。该模型使用图像的一维信息进行推断,并将其与使用二维信息的模型进行比较,在实验中达到了可比较的准确性。[11]利用完全卷积的编码器-解码器网络,用于预测分割掩码和边界框,该模型明显优于基于顺序文本或文档图像的方法。[24]将上下文信息融入Faster R-CNN模型中,以改善区域检测性能,从而更好地利用文章内容的本质局部性质。
目前用于DAR的深度学习方法通常面临两个限制:(1)这些模型通常依赖有限的标记数据,而将大量未标记的数据闲置不用。 (2)当前的深度学习模型通常利用预训练的计算机视觉模型或自然语言处理模型,但没有考虑文本和布局的联合预训练。LayoutLM解决了这两个限制,并与以前的基线模型相比,取得了更好的性能。
5 CONCLUSION AND FUTURE WORK
我们提出了LayoutLM,这是一种简单而有效的文本和布局信息在单一框架中进行预训练的技术。基于Transformer架构作为骨干,LayoutLM利用了多模态输入,包括标记embedding、布局embedding和图像embedding。与此同时,该模型可以在基于大规模未标记的扫描文档图像的自监督方式下轻松训练。我们在三个任务上评估了LayoutLM模型:表单理解、收据理解和扫描文档图像分类。实验结果表明,在这些任务中LayoutLM明显优于几个SOTA预训练模型。
对于未来的研究,我们将研究使用更多数据和更多计算资源进行预训练模型的方法。此外,我们还将尝试使用LARGE架构对文本和布局进行预训练,并在预训练步骤中引入图像embedding。此外,我们还将探索新的网络架构和其他自监督训练目标,这些目标可能进一步发挥LayoutLM的潜力。