LayoutLM：文档图像理解的文本与布局联合预训练

摘要

近年来，预训练技术在各种自然语言处理任务中已被成功验证。尽管预训练模型在自然语言处理应用中被广泛使用，但它们几乎完全专注于文本层面的建模，而忽略了对于文档图像理解至关重要的布局和样式信息。在本文中，我们提出了 LayoutLM，用于联合建模扫描文档图像中文本与布局信息之间的交互关系，这对于许多现实世界的文档图像理解任务（例如从扫描文档中抽取信息）非常有益。此外，我们还利用图像特征将单词的视觉信息融入 LayoutLM。据我们所知，这是首次在单一框架中联合学习文本与布局信息用于文档级别的预训练。该方法在多个下游任务中取得了新的最新成果，包括表单理解（准确率从 70.72 提升到 79.27）、收据理解（准确率从 94.02 提升到 95.24）以及文档图像分类（准确率从 93.07 提升到 94.42）。代码和预训练的 LayoutLM 模型已在 https://aka.ms/layoutlm 公布。

CCS 概念

• 信息系统 → 商业智能；• 计算方法 → 信息抽取；迁移学习；• 应用计算 → 文档分析。

关键词

LayoutLM；预训练模型；文档图像理解

1 引言

Document AI，或称 Document Intelligence¹，是一个相对较新的研究课题，指的是自动读取、理解和分析商业文档的相关技术。商业文档是提供公司内部和外部交易详情的文件，如图 1 所示。它们可能是以电子文件形式产生的数字文档，也可能是从纸质书写或打印文本扫描而来的图像文档。一些常见的商业文档包括采购订单、财务报告、商务邮件、销售协议、供应商合同、信函、发票、收据、简历等。商业文档对于提升企业的效率与生产力至关重要。虽然商业文档的具体格式各异，但其信息通常以自然语言呈现，并可组织为纯文本、多栏布局以及各种表格/表单/图形等复杂结构。由于布局与格式多样、扫描图像质量较差，以及模板结构的复杂性，理解这些商业文档是一项非常具有挑战性的任务。

如今，许多公司依赖人工从商业文档中提取数据，这一过程不仅耗时、昂贵，还需进行人工定制或配置。每种文档类型的规则与流程往往需要硬编码，并在格式变化或处理多种格式时进行更新。为了解决这些问题，Document AI 模型与算法被设计用于自动分类、抽取并结构化商业文档中的信息，从而加速自动化文档处理流程。当代的 Document AI 方法通常基于深度神经网络，既有从计算机视觉视角出发的方法，也有从自然语言处理视角出发的方法，或两者的结合。早期尝试通常集中于检测和分析文档中的特定部分，例如表格区域。[7] 首次提出了一种基于卷积神经网络（CNN）的 PDF 文档表格检测方法。随后，[21, 24, 29] 使用更先进的 Faster R-CNN 模型 [19] 或 Mask R-CNN 模型 [9] 进一步提高了文档布局分析的准确率。此外，[28] 提出了一种端到端、多模态、完全卷积网络，用于从文档图像中提取语义结构，同时结合了来自预训练 NLP 模型的文本 embedding。最近，[15] 引入了一种基于图卷积网络（GCN）的模型，用于将文本信息与视觉信息结合，以实现对商业文档中信息的抽取。

尽管这些模型在基于深度神经网络的 Document AI 领域取得了显著进展，但大多数方法仍面临两个主要限制：(1) 它们依赖少量人工标注的训练样本，未能充分挖掘大规模未标注样本的潜力；(2) 它们通常只使用预训练的计算机视觉模型或 NLP 模型，而未考虑文本与布局信息的联合训练。因此，探索如何通过自监督的方式对文本与布局进行预训练，在 Document AI 领域具有重要意义。

为此，我们提出了 LayoutLM，这是一种简单而有效的文本与布局联合预训练方法，旨在用于文档图像理解任务。LayoutLM 的灵感来自 BERT 模型 [4]，BERT 模型的输入文本信息主要由文本embedding和位置embedding表示，而 LayoutLM 在此基础上进一步添加了两种输入embedding：（1）二维位置embedding，用于表示token在文档中的相对位置；（2）图像embedding，用于表示文档中经过扫描的token图像。LayoutLM 的架构如图2所示。我们添加这两种输入embedding的原因是，二维位置embedding可以捕捉文档中token之间的相对关系，而图像embedding可以捕捉诸如字体方向、类型和颜色等外观特征。此外，我们还为 LayoutLM 设计了多任务学习目标，包括 Masked Visual-Language Model（MVLM）损失和 Multi-label Document Classification（MDC）损失，从而进一步促进文本与布局的联合预训练。

在本研究中，我们的重点是基于扫描文档图像的文档预训练。相较之下，digital-born文档的挑战较小，因为它们可以被视为一种不需要OCR的特殊情况，因此不在本文的讨论范围之内。具体来说，LayoutLM是在 IIT-CDIP Test Collection 1.02 [14] 上进行预训练的，该集合包含超过600万份扫描文档，共计1100万张扫描文档图像。这些扫描文档涵盖了多种类别，包括信函、备忘录、电子邮件、文件夹、表单、手写文档、发票、广告、预算、新闻文章、演示文稿、科学出版物、问卷、简历、科研报告、技术规格等，非常适合用于大规模自监督预训练。

我们选择了三个基准数据集作为下游任务来评估预训练的 LayoutLM 模型的性能。第一个是 FUNSD 数据集 [10]，用于空间布局分析和表单理解；第二个是 SROIE 数据集，用于扫描收据信息提取；第三个是 RVL-CDIP 数据集 [8]，用于文档图像分类，包含16类共40万张灰度图像。实验结果表明，预训练的 LayoutLM 模型在这些基准数据集上显著优于多个当前的SOTA预训练模型，展示了在文档图像理解任务中进行文本与布局预训练的巨大优势。

本文的贡献总结如下：

首次在一个统一框架中对扫描文档图像中的文本和布局信息进行预训练，同时引入图像特征，实现了新的SOTA性能；
LayoutLM 采用了 masked visual-language model 和 multi-label document classification 作为训练目标，在文档图像理解任务中显著优于多个SOTA预训练模型；
代码和预训练模型已公开发布，地址为：https://aka.ms/layoutlm，可供更多下游任务使用。

2 LayoutLM

在本节中，我们将简要回顾 BERT 模型，并介绍我们如何在 LayoutLM 框架中扩展以联合建模文本与布局信息。

2.1 BERT 模型

BERT 模型是一种基于注意力机制的双向语言建模方法。已验证 BERT 模型能够从大规模训练数据的自监督任务中有效地进行知识迁移。BERT 的架构基本上是一个多层的双向 Transformer 编码器。它接收一系列的 token 并堆叠多个层来生成最终的表示。具体而言，给定一组经过 WordPiece 处理的 token，输入的 embeddings 通过将对应的词汇嵌入、位置嵌入和段落嵌入相加来计算。然后，这些输入嵌入会通过多层的双向 Transformer，利用自适应的注意力机制生成上下文化的表示。

BERT 框架包括两个步骤：预训练和微调。在预训练阶段，模型使用两个目标来学习语言表示：Masked Language Modeling（MLM）和 Next Sentence Prediction（NSP）。其中，MLM 随机掩盖一些输入 token，目标是恢复这些被掩盖的 token；NSP 是一个二分类任务，输入为一对句子，任务是判断这两句话是否是连续的。在微调阶段，使用特定任务的数据集更新所有参数，进行端到端的优化。BERT 模型已成功应用于一系列的 NLP 任务。

2.2 LayoutLM 模型

尽管像 BERT 这样的模型在多个具有挑战性的 NLP 任务上取得了最先进的成果，但它们通常仅利用文本信息来处理任何类型的输入。而对于视觉丰富的文档来说，文档中包含更多可以编码进预训练模型的信息。因此，我们提出了利用文档布局中的视觉丰富信息，并将其与输入文本对齐的方法。基本上，存在两种特征，可以显著提高视觉丰富文档中的语言表示，它们是：

文档布局信息

显然，文档中单词的相对位置对语义表示有很大贡献。以表单理解为例，给定表单中的一个键（例如，"护照 ID:"），其对应的值更可能出现在其右侧或下方，而不是左侧或上方。因此，我们可以将这些相对位置信息嵌入为二维位置表示。基于 Transformer 中的自注意力机制，将二维位置特征嵌入语言表示中，可以更好地将布局信息与语义表示对齐。

视觉信息

与文本信息相比，视觉信息在文档表示中是另一个非常重要的特征。通常，文档中包含一些视觉信号来显示文档各部分的重要性和优先级。视觉信息可以通过图像特征表示，并有效地用于文档表示。对于文档级别的视觉特征，整个图像可以指示文档布局，这是文档图像分类的重要特征。对于单词级别的视觉特征，粗体、下划线和斜体等样式也是序列标注任务的重要线索。因此，我们认为将图像特征与传统的文本表示相结合，可以为文档带来更丰富的语义表示。

2.3 模型架构

为了利用现有的预训练模型并适应文档图像理解任务，我们使用 BERT 架构作为骨干，并添加了两个新的输入嵌入：二维位置嵌入和图像嵌入。

二维位置嵌入

与表示序列中单词位置的位置嵌入不同，二维位置嵌入旨在表示文档中的相对空间位置。为了表示扫描文档图像中元素的空间位置，我们将文档页面视为一个以左上角为原点的坐标系。在这个设置中，边界框可以通过 ( x 0 , y 0 , x 1 , y 1 x_0, y_0, x_1, y_1 x0,y0,x1,y1) 来精确地定义，其中 ( x 0 , y 0 x_0, y_0 x0,y0) 对应边界框的左上位置，而 ( x 1 , y 1 x_1, y_1 x1,y1) 代表右下位置。我们添加了四个位置嵌入层，使用两个嵌入表，其中表示相同维度的嵌入层共享相同的嵌入表。这意味着我们在嵌入表 X 中查找 x 0 x_0 x0 和 x 1 x_1 x1 的位置嵌入，在嵌入表 Y 中查找 y 0 y_0 y0 和 y 1 y_1 y1 的位置嵌入。

图像嵌入

为了利用文档的图像特征并将其与文本对齐，我们添加了一个图像嵌入层，以表示语言表示中的图像特征。具体来说，利用 OCR 结果中的每个单词的边界框，我们将图像分割成多个片段，并且这些片段与单词一一对应。我们使用 Faster R-CNN 模型生成这些图像片段的图像区域特征，作为 token 图像嵌入。对于 [CLS] token，我们也使用 Faster R-CNN 模型，利用整个扫描文档图像作为感兴趣区域 (ROI) 来生成嵌入，以便于下游任务中需要 [CLS] token 表示的任务。

2.4 LayoutLM 的预训练

任务 #1：Masked Visual-Language Model

受到 Masked Language Model 启发，我们提出了 Masked Visual-Language Model（MVLM）来通过二维位置嵌入和文本嵌入的线索学习语言表示。在预训练过程中，我们随机掩盖一些输入 token，但保留相应的二维位置嵌入，然后模型被训练以根据上下文预测被掩盖的 token。通过这种方式，LayoutLM 模型不仅理解语言上下文，还利用了相应的二维位置信息，从而弥合了视觉和语言模态之间的差距。

任务 #2：多标签文档分类

对于文档图像理解，许多任务需要模型生成高质量的文档级表示。由于 IIT-CDIP 测试集包含每个文档图像的多个标签，我们在预训练阶段还使用了多标签文档分类（MDC）损失。给定一组扫描文档，我们使用文档标签来监督预训练过程，使得模型能够从不同领域中聚类知识并生成更好的文档级表示。由于 MDC 损失需要每个文档图像的标签，而对于更大的数据集可能不存在该标签，因此它在预训练过程中是可选的，并且未来可能不会用于更大模型的预训练。我们将在第 3 节中比较 MVLM 和 MVLM+MDC 的性能。

2.5 LayoutLM 的微调

预训练的 LayoutLM 模型在三个文档图像理解任务上进行微调，包括表单理解任务、收据理解任务以及文档图像分类任务。对于表单和收据理解任务，LayoutLM 为每个 token 预测 {B, I, E, S, O} 标签，并使用序列标注方法来检测数据集中的每种实体类型。对于文档图像分类任务，LayoutLM 使用 [CLS] token 的表示来预测类别标签。

3 实验

3.1 预训练数据集

预训练模型的性能在很大程度上取决于数据集的规模和质量。因此，我们需要一个大规模的扫描文档图像数据集来预训练 LayoutLM 模型。我们的模型在 IIT-CDIP Test Collection 1.0 上进行预训练，该数据集包含超过 600 万个文档，以及超过 1100 万个扫描文档图像。此外，每个文档都有其相应的文本和元数据，存储在 XML 文件中。文本是通过对文档图像应用 OCR 得到的内容。元数据描述了文档的属性，如唯一标识符和文档标签。尽管元数据包含错误和不一致的标签，但这个大规模扫描文档图像数据集非常适合用来预训练我们的模型。

3.2 微调数据集

FUNSD 数据集

我们在 FUNSD 数据集上评估了我们的方法，进行噪声扫描文档中的表单理解。该数据集包括 199 个真实的、完全标注的扫描表单，包含 9,707 个语义实体和 31,485 个单词。这些表单被组织为一组相互关联的语义实体。每个语义实体包含一个唯一标识符、一个标签（如问题、答案、标题或其他）、一个边界框、一个与其他实体的链接列表和一个单词列表。该数据集分为 149 个训练样本和 50 个测试样本。我们采用单词级别的 F1 分数作为评估指标。

SROIE 数据集

我们还在 SROIE 数据集上评估了我们的模型，进行收据信息提取（任务 3）。该数据集包含 626 个用于训练的收据和 347 个用于测试的收据。每个收据被组织为一组带有边界框的文本行。每个收据标注有四种类型的实体，分别是 {公司、日期、地址、总计}。评估指标是实体识别结果的精确匹配 F1 分数。

RVL-CDIP 数据集

RVL-CDIP 数据集包含 400,000 张灰度图像，分为 16 个类别，每个类别 25,000 张图像。共有 320,000 张训练图像，40,000 张验证图像和 40,000 张测试图像。图像经过缩放，最大维度不超过 1,000 像素。这 16 个类别包括 {信件、表单、电子邮件、手写、广告、科学报告、科学出版物、规范、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历、备忘录}。评估指标是整体分类准确率。

3.3 文档预处理

为了利用每个文档的布局信息，我们需要获得每个 token 的位置。然而，预训练数据集（IIT-CDIP Test Collection）仅包含纯文本，并缺少相应的边界框。在这种情况下，我们重新处理扫描文档图像，以获得必要的布局信息。与 IIT-CDIP Test Collection 中的原始预处理相似，我们通过对文档图像应用 OCR 来处理数据集。不同之处在于，我们获得了识别的单词及其在文档图像中的对应位置。得益于开源 OCR 引擎 Tesseract，我们可以轻松获得识别结果和二维位置。我们将 OCR 结果存储为 hOCR 格式，这是一种标准的规格格式，用于通过层次表示清晰定义单个文档图像的 OCR 结果。

3.4 模型预训练

我们使用预训练的 BERT base 模型初始化 LayoutLM 模型的权重。具体来说，我们的 BASE 模型采用相同的架构：一个 12 层的 Transformer，隐藏层大小为 768，注意力头数为 12，总共有约 1.13 亿个参数。因此，我们使用 BERT base 模型来初始化模型中的所有模块，除了二维位置嵌入层。对于 LARGE 设置，我们的模型采用 24 层 Transformer，隐藏层大小为 1,024，注意力头数为 16，使用预训练的 BERT LARGE 模型初始化，包含约 3.43 亿个参数。根据[4]，我们选择 15% 的输入 tokens 用于预测。我们以 80% 的概率将这些掩盖的 token 替换为 [MASK] token，10% 的概率替换为随机 token，剩余的 10% 保持不变。然后，模型通过交叉熵损失来预测相应的 token。

此外，我们还添加了四个嵌入表示（x0, y0, x1, y1）的二维位置嵌入层，其中 (x0, y0) 对应边界框左上角的位置，而 (x1, y1) 代表右下角的位置。考虑到不同页面大小可能导致文档布局的变化，我们将实际坐标缩放到"虚拟"坐标：实际坐标被缩放到 0 到 1,000 的范围内。此外，我们还使用 ResNet-101 模型作为 Faster R-CNN 模型中的骨干网络，该模型在 Visual Genome 数据集上进行了预训练。

我们在 8 台 NVIDIA Tesla V100 32GB GPU 上训练模型，总批量大小为 80。使用 Adam 优化器，初始学习率为 5e-5，并采用线性衰减学习率策略。BASE 模型在 1,100 万文档上完成一次训练需要 80 小时，而 LARGE 模型需要约 170 小时。

3.5 任务特定微调

我们在三个文档图像理解任务上评估 LayoutLM 模型：表单理解、收据理解和文档图像分类。我们遵循典型的微调策略，并在任务特定的数据集上以端到端方式更新所有参数。

表单理解

该任务要求从表单中提取和结构化文本内容，目的是从扫描的表单图像中提取键值对。具体而言，该任务包括两个子任务：语义标注和语义链接。语义标注是将单词聚合为语义实体并为其分配预定义标签的任务。语义链接是预测语义实体之间关系的任务。在本研究中，我们重点关注语义标注任务，语义链接不在讨论范围内。为了在此任务上微调 LayoutLM，我们将语义标注视为序列标注问题。我们将最终表示传入一个线性层，随后是一个 softmax 层来预测每个 token 的标签。模型训练了 100 个 epoch，批量大小为 16，学习率为 5e-5。

收据理解

该任务要求根据扫描的收据图像填充几个预定义的语义槽。例如，给定一组收据，我们需要填充特定的槽（如公司、地址、日期和总计）。不同于表单理解任务要求对所有匹配的实体和键值对进行标注，语义槽的数量是固定的并且具有预定义的键。因此，模型只需要使用序列标注方法预测相应的值。

文档图像分类

给定一个视觉丰富的文档，该任务旨在预测每个文档图像的对应类别。与现有的基于图像的方法不同，我们的模型不仅包含图像表示，还利用文本和布局信息，使用 LayoutLM 中的多模态架构。因此，我们的模型可以更有效地结合文本、布局和图像信息。为了在此任务上微调模型，我们将 LayoutLM 模型的输出与整个图像嵌入进行连接，随后通过一个 softmax 层进行类别预测。我们将模型微调 30 个 epoch，批量大小为 40，学习率为 2e-5。

3.6 结果

表单理解。我们在FUNSD数据集上评估了表单理解任务。实验结果如表1所示。我们将LayoutLM模型与两种最先进的预训练NLP模型进行比较：BERT和RoBERTa [16]。BERT BASE模型在F1得分上达到了0.603，而LARGE模型则达到了0.656。与BERT相比，RoBERTa在该数据集上的表现要好得多，因为它使用更大的数据集和更多的训练轮次。由于时间限制，我们在LayoutLM上展示了四种设置，分别是500K文档页、6轮训练，1M文档页、6轮训练，2M文档页、6轮训练，以及11M文档页、2轮训练。观察到，LayoutLM模型在该任务中显著优于现有的最先进预训练基线。使用BASE架构时，LayoutLM模型在11M训练数据下的F1得分为0.7866，明显高于BERT和RoBERTa，且参数量相似。此外，我们还在预训练步骤中添加了MDC损失，这确实在FUNSD数据集上带来了显著的改进。最终，LayoutLM模型在同时使用文本、布局和图像信息时，达到了最佳表现，F1得分为0.7927。

此外，我们还在FUNSD数据集上评估了不同数据量和训练轮次下的LayoutLM模型，结果如表2所示。从不同数据设置的结果中可以看出，随着训练轮次的增加，整体准确度呈单调上升趋势。此外，随着输入LayoutLM模型的数据量增多，准确度也有所提高。由于FUNSD数据集只有149张图像用于微调，结果进一步验证了文本和布局预训练在扫描文档理解中的有效性，尤其是在资源较少的设置下。

此外，我们比较了不同的LayoutLM模型初始化方法，包括从零开始初始化、BERT和RoBERTa。表3中的结果显示，使用RoBERTa BASE初始化的LayoutLM BASE模型在F1得分上比BERT BASE高出2.1个百分点。对于LARGE设置，使用RoBERTa LARGE初始化的LayoutLM LARGE模型比BERT LARGE模型进一步提高了1.3个百分点。我们计划在未来使用RoBERTa作为初始化进行更多模型的预训练，特别是在LARGE设置下。

收据理解。我们使用SROIE数据集评估收据理解任务，结果如表4所示。由于我们只测试了SROIE中的关键信息提取任务，我们希望消除不正确OCR结果的影响。因此，我们通过使用地面真实OCR进行预处理，并使用基线模型（BERT和RoBERTa）以及LayoutLM模型进行一系列实验。结果显示，使用11M文档图像训练的LayoutLM LARGE模型达到了0.9524的F1得分，明显优于竞赛排行榜上的第一名。这一结果还验证了，预训练的LayoutLM不仅在领域内数据集（如FUNSD）上表现良好，还在跨领域数据集（如SROIE）上超越了多个强大的基线模型。

文档图像分类。最后，我们使用RVL-CDIP数据集评估文档图像分类任务。文档图像与其他自然图像不同，因为文档图像中的大部分内容都是文本，且以各种样式和布局呈现。传统上，基于图像的分类模型经过预训练后，比基于文本的模型表现要好得多，如表5所示。我们可以看到，BERT和RoBERTa在该任务上表现不如基于图像的方法，这说明仅有文本信息不足以完成该任务，仍然需要布局和图像特征。我们通过使用LayoutLM模型来解决这个问题。结果表明，即使没有图像特征，LayoutLM仍然优于单一的基于图像的方法。将图像嵌入集成后，LayoutLM达到了94.42%的准确率，显著优于多个文档图像分类的SOTA基线。我们观察到，我们的模型在"电子邮件"类别上表现最好，而在"表单"类别上表现最差。我们将进一步研究如何利用预训练的LayoutLM和图像模型，并在LayoutLM的预训练阶段引入图像信息。

4 相关工作

文档分析与识别（DAR）的研究可以追溯到1990年代初。主流方法可分为三类：基于规则的方法、传统机器学习方法和深度学习方法。

4.1 基于规则的方法

基于规则的方法[6, 13, 18, 23]包含两种分析方法：自下而上和自上而下。自下而上的方法[5, 13, 23]通常将文档图像中的黑色像素的连通分量作为基本计算单元，文档分割过程是通过不同的启发式方法将它们合并为更高层次的结构，并根据不同的结构特征对其进行标注。Docstrum算法[18]是最早成功的自下而上算法之一，它基于连通分量分析，将连通分量按照极坐标结构进行分组，从而得到最终的分割。[23]使用一种特殊的距离度量来描述不同组件之间的关系，以构建物理页面结构。它们进一步通过启发式方法和路径压缩算法减少了时间复杂度。

自上而下的方法通常通过递归的方式将页面分割成列、块、文本行和标记。[6]提出用所有像素中的黑色像素替代基本单元，并使用递归X-Y切割算法将文档分解，建立X-Y树，使复杂文档的分解更加容易。尽管这些方法在一些文档上表现良好，但它们需要大量的人工努力来制定更好的规则，而且有时无法推广到其他来源的文档。因此，利用机器学习方法是DAR研究中不可避免的。

4.2 机器学习方法

随着传统机器学习的发展，统计机器学习方法[17, 22]在过去十年中已成为文档分割任务的主流。[22]将文档的布局信息视为解析问题，并基于基于语法的损失函数进行全局优化解析树的搜索。它们使用机器学习方法来选择特征并在解析过程中训练所有参数。同时，人工神经网络（ANN）[17]已广泛应用于文档分析与识别。大多数努力都集中在识别孤立的手写和打印字符，并取得了广泛认可的成功结果。除了ANN模型，SVM和GMM[27]也已应用于文档布局分析任务。对于机器学习方法，通常需要耗费时间来设计手工特征，并且很难获得高度抽象的语义上下文。此外，这些方法通常依赖于视觉线索，但忽视了文本信息。

4.3 深度学习方法

近年来，深度学习方法已成为许多机器学习问题的主流和事实标准。从理论上讲，通过多层神经网络的堆叠，它们可以拟合任何任意的函数，并且已被证明在许多研究领域中有效。[28]将文档语义结构提取任务视为逐像素分类问题。他们提出了一种多模态神经网络，考虑了视觉和文本信息，但该工作的局限性在于，它们仅将网络用于辅助启发式算法来分类候选边界框，而不是采用端到端的方法。[26]提出了一种轻量级的文档布局分析模型，适用于移动和云服务。该模型使用图像的一维信息进行推理，并将其与使用二维信息的模型进行比较，实验中达到了相当的准确度。[11]利用全卷积编码器-解码器网络，预测分割掩码和边界框，该模型在基于顺序文本或文档图像的方法上表现显著更好。[24]将上下文信息融入Faster R-CNN模型，该模型涉及到文章内容的固有局部化特性，从而提高了区域检测性能。

现有的深度学习方法在文档分析与识别（DAR）中通常面临两个限制：

模型往往依赖于有限的标注数据，同时大量未标注的数据没有被利用。
当前的深度学习模型通常依赖于预训练的计算机视觉（CV）模型或自然语言处理（NLP）模型，但没有考虑文本和布局的联合预训练。LayoutLM解决了这两个限制，并且相比于先前的基线模型取得了更好的性能。

5 结论与未来工作

我们提出了LayoutLM，一种简单而有效的预训练技术，能够在一个框架中同时处理文本和布局信息。基于Transformer架构作为骨干网络，LayoutLM利用多模态输入，包括标记嵌入、布局嵌入和图像嵌入。同时，该模型可以基于大规模未标注的扫描文档图像以自监督的方式轻松进行训练。我们在三个任务上评估了LayoutLM模型：表单理解、收据理解和扫描文档图像分类。实验表明，LayoutLM在这些任务上显著超越了几个SOTA预训练模型。

对于未来的研究，我们将探讨使用更多数据和更多计算资源来预训练模型。此外，我们还将使用大规模架构（LARGE）进行训练，结合文本和布局，并在预训练步骤中引入图像嵌入。进一步地，我们将探索新的网络架构和其他自监督训练目标，以进一步发挥LayoutLM的潜力。

复制代码

论文名称：
LayoutLM: Pre-training of Text and Layout for Document Image Understanding
论文地址：
https://arxiv.org/pdf/1912.13318