NLP问与答——Deep contextualized word representations

1.为什么预训练模型可以大大增加泛化能力？

预训练模型能够显著提高泛化能力，是因为它们通过在大规模多样化的数据上进行训练，学习到了丰富的、具有广泛适用性的特征表示。这种特性为下游任务提供了强大的基础，具体原因包括以下几个方面：

1. 大规模数据上的丰富特征学习

预训练模型通常在大规模、多样化的数据集（如互联网文本、图片、音频等）上进行训练。这些数据覆盖了多种场景和上下文，使模型能够学习到通用的表示。这些表示包括：

语义特征：词语、句子或图像的深层语义关系。
模式特征：上下文模式、结构规律或多模态之间的关联。

这些特征能够有效应用到未见数据中，提高模型的泛化能力。

2. 多层深度表示的迁移

深度神经网络的不同层捕获了从低级到高级的特征：

浅层特征：学习了基本的模式（如边缘、纹理、简单词义等）。
深层特征：捕捉抽象的概念（如复杂语义、图像对象的类别）。预训练模型提供了一个"知识提取"的基础，通过迁移这些层次化的知识，后续任务可以直接利用深层特征，从而减少了训练数据的依赖，提高了泛化能力。

3. 正则化效果

在大规模数据上进行预训练可以起到类似正则化的作用：

避免过拟合：预训练阶段的广泛训练减少了模型对特定任务数据的过拟合。
共享知识：学习到的知识是通用的，因此在下游任务中可以帮助模型更好地适应不同的数据分布。

例如，BERT 或 GPT 模型在各种文本任务中表现出强大的泛化能力，正是因为它们已经学习到了通用的语言模式和结构。

4. 解决数据稀缺问题

许多任务面临训练数据不足的问题。预训练模型通过利用海量的无监督或弱监督数据学习知识，然后在小规模的有监督数据上进行微调（Fine-tuning），显著提高了下游任务的性能。

举例：

预训练模型在百万句文本上学习语言特征，微调时只需几千条标注数据即可取得良好的效果。

5. 更有效的优化起点

预训练模型为下游任务提供了一个良好的初始化参数，使得：

优化过程更稳定、更高效。
模型更容易找到全局最优解，而不是停留在局部最优。

相比从头开始训练，利用预训练模型可以显著缩短训练时间，同时提高性能。

6. 多任务学习和知识整合

许多预训练模型（如 T5、CLIP）通过多任务学习将知识整合在一起。这样，模型能够：

在不同任务中共享知识（例如图像和文本的跨模态表示）。
学习到不同任务之间的共性，从而更好地泛化到新任务。

7. 自监督学习的优势

自监督学习是预训练模型的重要训练方式。通过设计预训练任务（如词填空、下一个句子的预测、图像块重建等），模型可以在无标注数据上有效学习。自监督学习的优点包括：

数据规模不受限制：大量的无标注数据可用。
学到的表示更通用，能覆盖更多未见情况。

例如：

GPT 模型通过预测下一个词学习语言表示。
Vision Transformers 通过自监督任务捕获图像的深层特征。

8. 减少对特定领域特征工程的依赖

传统方法通常需要根据具体任务设计特征工程，而预训练模型通过学习通用表示，大幅减少了这种需求。它们在大规模数据中已经学会了许多任务的特征，使得特定领域的任务更容易实现。

2.什么是枢轴词？

枢轴词（Pivot Word），又称为"枢纽词"或"核心词"，是指在某种上下文或任务中起到关键作用的词汇。具体来说，它通常是指在文本、语句或信息流中，能连接或转化不同主题、概念、上下文或内容的词。枢轴词在许多自然语言处理（NLP）任务中起着桥梁作用，帮助引导语义的转移或情境的转换。

枢轴词的几种常见应用

文本分类中的枢轴词
- 在文本分类任务中，枢轴词是指那些能够显著影响分类结果的词汇。例如，在情感分析任务中，"喜欢"或"讨厌"是能够明显区分正面和负面情感的枢轴词。
信息检索中的枢轴词
- 在信息检索（如搜索引擎）中，枢轴词是那些能够有效地将用户查询与相关文档或数据对接的关键词。通过这些词的匹配，检索系统能够返回相关信息。
机器翻译中的枢轴词
- 在机器翻译中，枢轴词是指那些跨语言之间能够帮助实现准确翻译的词。例如，在翻译过程中，某些词的翻译可能依赖于上下文，而枢轴词则有助于确定正确的翻译选项。
跨模态任务中的枢轴词
- 在多模态学习（如图像和文本的联合学习）中，枢轴词指的是可以帮助连接图像和文本信息的词汇。例如，描述图像内容的文字（如"狗"、"跑步"）通常是图像和文本之间的桥梁词，能够帮助模型在不同模态之间传递信息。

枢轴词在不同任务中的作用

语义连贯性
- 枢轴词能够在句子或段落中保持语义的连贯性。例如，在阅读理解任务中，枢轴词如"因为"、"因此"等可以帮助连接因果关系，确保语义的正确流动。
情感推断
- 在情感分析中，某些词汇（如"非常好"、"糟糕"）能够直接影响情感极性，起到决定性的作用。这些词在文本中作为枢轴词，有助于模型判断情感的强度。
信息提取
- 在信息抽取任务中，枢轴词帮助识别重要信息或关系。例如，在命名实体识别（NER）任务中，表示地名、时间、人物等的枢轴词对于提取特定信息至关重要。

枢轴词的例子

情感分析：
- 正面情感： "喜欢"、 "爱"、 "满意"、 "愉快"、 "赞赏"等。
- 负面情感： "讨厌"、 "不满"、 "生气"、 "失望"、 "愤怒"等。
问答系统：
- 在问题中，枢轴词帮助系统理解用户的意图，例如：
  - "谁是......"中的"谁"是一个枢轴词，帮助指向人物或实体。
  - "什么时候......"中的"什么时候"是枢轴词，帮助确定时间信息。
机器翻译：
- 在机器翻译中，诸如"the"、"is"、"are"等词虽然看似常见，但通常是枢轴词，因为它们对句子的语法结构有着至关重要的影响。
信息检索：
- 在搜索引擎中，用户输入的查询"最好的手机品牌"中的"手机"和"品牌"是枢轴词，它们帮助搜索系统理解用户意图并找到相关结果。

方法

给定一个包含 N 个 token 的序列 (t1, t2, ..., tN)，前向语言模型通过对给定历史记录 (t1, ..., tk−1) 的 token tk 的概率进行建模来计算该序列的概率：

我们将前向和后向的 token 表示 (Θx) 和 Softmax 层 (Θs) 的参数绑定在一起，同时在每个方向上为 LSTM 保留单独的参数。总体而言，此公式类似于 Peters 等人 (2017) 的方法，不同之处在于我们在方向之间共享一些权重，而不是使用完全独立的参数。在下一节中，我们将与之前的工作不同，引入一种学习词表示的新方法，该方法是 biLM 层的线性组合。

ELMo 是 biLM（双向语言模型） 中中间层表示的特定任务组合。对于每个 token tk，L 层 biLM 计算一组 2L + 1 个表示

其中 hLM k,0 是 token 层，对于每个 biLSTM 层，hLM k,j = [−→h LM k,j ; h←−LM k,j ]。为了包含在下游模型中，ELMo 将 R 中的所有层折叠为单个向量，ELMok = E(Rk; Θe)。在最简单的情况下，ELMo 只选择顶层，E(Rk) = hLM k,L ，如 TagLM（Peters 等人，2017 年）和 CoVe（McCann 等人，2017 年）中所述。更一般地，我们计算所有 biLM 层的任务特定权重：

在 (1) 中，stask 是 softmax 归一化权重，标量参数 γtask 允许任务模型缩放整个 ELMo 向量。γ 对于辅助优化过程具有实际重要性（详情请参阅补充材料）。考虑到每个 biLM 层的激活具有不同的分布，在某些情况下，在加权之前对每个 biLM 层应用层归一化（Ba et al., 2016）也有所帮助。