大模型对数据分布变化的鲁棒性研究综述

摘要：

标准机器学习的一个主要限制是它产生的模型对分布变化不鲁棒，其中训练分布与测试分布不匹配（对于下游任务）。现有的工作表明，调整在广泛的未标记数据上训练的基础模型可以提高适应模型在各种变化中的鲁棒性。这为改进基础模型的训练和适应性以提高鲁棒性开辟了一系列新的有希望的方向。然而，我们并不认为基础大模型能完全解决鲁棒性问题--诸如跨时间外推和虚假相关性等挑战不太可能得到充分解决。

现实世界的机器学习系统需要对分布变化具有鲁棒性-它们应该在与火车分布不同的测试分布上工作良好。高风险应用，如资源不足国家的贫困地图，自动驾驶汽车和医疗诊断，都需要模型很好地概括训练数据中没有看到的情况，例如，测试来自不同国家、不同驾驶条件或不同医院的样本。先前的工作表明，即使在最先进的模型中，这些类型的分布偏移也会导致性能大幅下降。

在本节中，我们考虑基础模型对分布变化的鲁棒性的作用。基础模型是在从分布预处理器采样的大型且多样化的未标记数据集上训练的，并且可以适应许多下游任务。对于每个下游任务T，基础模型被适配为从分布内（ID）的训练分布中采样的标记的训练数据，然后在分布外（OOD）的测试分布中进行评估。𝑝𝑝例如，一个贫困预测模型可以在来自世界各地的未标记卫星数据上进行预训练，以学习所有国家的有用特征，然后在尼日利亚的标记示例上进行微调，最后在标记示例稀缺的马拉维进行评估。

我们认为：

1）基础模型是一种特别有前途的鲁棒性方法。现有的工作表明，在未标记数据上进行预训练是一种有效的、通用的方法，可以提高OOD测试分布的准确性，而许多鲁棒性干预措施仅限于窄类型的分布变化。然而，我们还讨论了为什么。

2）基础模型可能并不总是减轻分布变化，例如由于假相关或随时间变化而引起的变化。

3）我们概述了几个研究方向，以利用和改善基础模型的鲁棒性。

我们注意到，基础模型导致改进外推的方法之一是通过为适应模型提供归纳偏差（通过模型初始化），这是在扩展到下游训练数据之外的不同数据集上学习的。然而，同样的归纳偏差也可以从预训练的数据中编码有害的关联，并在存在分布偏移的情况下导致代表性和分配性的损害。有关此类伤害和缓解方法的进一步讨论，请参见第4.6节：数据和第5.1节：公平性。

1. 优势

通过学习大量不同的基础模型训练分布样本上的表示，基础模型可以提高下游测试分布样本T OOD上的自适应导数的准确性。OpenAI的CLIP模型是一种在各种图像和自然语言文档集上训练的基础模型，已被证明对ImageNet上的一些基准分布变化具有鲁棒性：例如，CLIP和标准ResNet 50在ImageNet上都获得了76%的准确率，但CLIP在ImageNet V2上的准确率提高了6%，在ImageNet Sketch上的准确率提高了35%，这两者都与原始ImageNet训练分布相关但不同。相比之下，许多其他鲁棒性干预措施，如对抗性训练、不变风险最小化或使用更大的模型，对有效鲁棒性的影响很小（定义为分布内和分布外性能之间的差距），特别是在没有分布偏移的明确知识的情况下。许多其他工作表明，在大型数据集上进行预训练可以提高对常见图像损坏、标签移位和标签损坏的鲁棒性;对卫星图像任务中的真实世界空间移位的鲁棒性;以及对自然语言理解任务中的跨主题移位的鲁棒性。作为另一个例子，将基础模型训练数据多样化以包括多种语言（如多语言BERT ）显着提高了看不见的语言对的性能。

图各种分布变化的分布内（ID）和分布外（OOD）输入。这里描述的预测任务是图像的图像分类和文本的事实验证。尽管基础模型学习的表示提高了许多移位的下游鲁棒性（例如，常见的腐败），一些变化，如虚假相关性（其中草是牛的预测）和跨时间的外推（随着时间的推移而变化的事实）仍然可能未被基础模型解决。

2. 持续的挑战

尽管有迹象表明，基础模型将导致鲁棒性的大幅改善，但我们预计基础模型并不是解决分布变化的灵丹妙药。我们在下面两大类分布变化的背景下讨论这一点。

假相关

虚假相关性是特征和标签之间的统计相关性，对训练分布具有预测能力，但对测试分布没有预测能力。众所周知的例子包括依赖背景颜色进行对象识别，医疗诊断的手术标记，众包数据中的注释者偏见和人口统计学偏倚。模型学习这些虚假的相关性很大程度上是因为基础模型训练和适应数据表现出这些偏差，并且这个问题不能简单地用更大的模型来解决。基础模型可能会加剧或减轻虚假相关性的影响，但这取决于特定下游任务的性质及其与基础模型训练数据和算法的关系。通过用不同的数据集进行训练，基础模型可以提高对仅在训练数据的子集中发现的虚假相关的鲁棒性：例如，现有的研究发现，预训练的语言模型可以通过快速从反例学习到虚假相关来避免虚假相关。然而，基础模型也可能通过引入基础模型训练数据中存在的偏差来加剧这个问题，如在GPT-3和其他NLP模型中观察到的人口统计学偏差[。此外，单独的大规模训练不需要完全解决识别和不依赖于对下游训练集有预测性但对下游测试集没有预测性的特征的根本问题[Heinze-Deml and Meinshausen 2017]。解决这些挑战将需要我们理解和管理基础模型训练中的归纳偏差，并开发出能够抵抗学习虚假相关性的自适应算法。

外推和时间漂移

最后，基础模型的少量和零射击能力将意味着这些模型将越来越多地被用于远远超出训练分布的范围。虽然大规模的基础模型训练可以帮助某些形式的外推到新的分布，但它们的外推能力可能有限。例如，现有的语言模型在没有重新训练的情况下无法处理世界知识的变化或语言变化，CLIP中的零拍摄传输在卫星图像领域受到很大影响，ImageNet预训练并没有实质性地提高大型模型在医学图像上的性能。我们认为，不能假设基础模型在给定模态内自动外推（例如，所有图像），而且界定和区分基金会模型新启用的外推形式与仍然无法实现的外推形式将变得越来越重要。虽然现有的分布变化分类法已被普遍提出，但充分理解和定义基础模型有效的分布变化类型是鲁棒性研究的一个主要开放问题。

3. 机会

基础模型作为分布变化的通用鲁棒性干预措施，为鲁棒性研究开辟了新的途径。我们在下面列出了一些机会和开放的问题。

了解基础模型表达

现有的基础模型的鲁棒性研究主要是经验性的，并且对鲁棒性增益背后的机制几乎没有了解。Sun et al. 假设预训练的表示将不同的域（如ID和OOD分布）更紧密地联系在一起，这反过来可以提高从标记的ID数据到OOD数据的泛化能力。测量有无预训练的领域表征之间的距离的控制实验可以阐明这种效应。在表征基础模型训练方面有初步的有希望的方向（例如，对比学习作为谱图分解）及其归纳偏差。然而，这些理论是有限的，并且未能解决其他经验上有效的基础模型，例如完全生成语言模型（例如，GPT-3和图像-GPT ）。进一步理解这些归纳偏差在分布偏移下如何有用，可能会导致关于基础模型如何提高鲁棒性的更完整的理论。基础模型训练中的数据扩充。虽然在不了解下游任务的情况下训练的基础模型可以避免一些特定于任务的偏差，并且通常可以提高鲁棒性，但由于基础模型的训练方式而产生的某些统计偏差可能会持续存在。作为一个具体的例子，许多当代的自我监督算法在很大程度上依赖于选择一组适当的数据增强，这反过来又赋予了适应阶段不同类型的鲁棒性。例如，表明，通过旋转增强的对比学习训练的视觉基础模型可以提高具有旋转不变性的自适应任务的OOD性能，但可能无法提高OOD泛化需要其他不变性的任务的鲁棒性。进一步研究什么类型的数据增强可以提高广泛的下游任务的鲁棒性-包括从数据中学习的数据增强或设计为在数据模态中普遍适用的数据增强 -将为更好的基础模型训练算法提供信息。基础模型训练中的编码结构。一般来说，探索编码数据中已知结构和不变性的新方法是基础模型训练的重要途径。许多现实世界的任务具有附加的元数据（例如，空间位置坐标、来自我们的贫困预测示例中的辅助卫星的气候信息），这可以为OOD概括提供附加的结构（例如，跨地理区域）。例如，Xie等人。表明，元数据可以用作预训练的目标，以提高下游OOD的准确性。在语言中，对HTML数据中的标签进行建模提供了额外的下游任务相邻监督，允许新形式的提示（例如，填充<title>标题建议的标签），并提高数据效率。虽然目前的数据增强方法编码手工制作的知识，其他途径，如利用元数据可以提供更自动化的方式来确定哪些结构和不变性纳入基础模型训练。基础模型训练数据的专业化与多样性。基础模型训练数据的选择具有下游效应-在更多样化的数据集上进行训练并不总是比更专业的基础模型更好地获得下游性能。在某些领域，如卫星图像和专业文本主题，在专业领域继续进行预训练可显着提高下游性能。这是一个潜在的紧张来源：一方面，我们可能希望在一个大型的，多样化的数据集上训练基础模型，以便在分布变化下具有更强大的性能，而另一方面，我们可能需要专门化基础模型，以提高其在下游任务上的分布内和分布外性能。更好地理解专业化如何影响基础模型的分布内和分布外性能，将使我们能够设计和收集更有效的基础模型训练集。

适应方法。虽然基础模型提供了一个强有力的起点，但自适应方法如何使用预训练信息可能会影响鲁棒性。例如，用于语言模型的轻量级调优方法（例如，适配器/前缀/提示调优），通过优化一小部分参数（例如连续提示），同时保持其他基础模型参数不变，使模型适应新任务，似乎可以给予OOD性能优势。Xie et al.在一种特殊情况下解释了这一点，其中将学习模型与冻结基础模型组合可以降低学习模型的复杂性，从而提高ID和OOD的泛化能力。在视觉数据集上，Wortsman等人。; Kumar等人发现，冻结基础模型并仅训练头部可以比微调整个模型带来更好的OOD性能。Kumar等人从理论上解释了这一点，表明即使在简单的设置（双层线性网络）中，完全微调也会扭曲预训练的特征。然而，它仍然是很少理解的一般为什么冻结参数似乎提高OOD性能。最后，虽然目前的适应方法可能足以良好的ID推广，方法不明确占分布转移在他们的设计。作为第一步，我们可以研究用于分布转移的方法，如域自适应，域泛化和半监督学习方法，在用于自适应时如何与基础模型交互。在这些方面取得的进展可以导致适应方法，可以更好地利用基础模型的鲁棒性。