大语言模型损失函数详解

一、语言模型分类

我们可以把语言模型分为两类：自动回归式语言模型，自动编码式语言模型。

1.1 自动回归式语言模型

自动回归式语言模型在本质上是单向的，也就是说，它只沿着一个方向阅读句子。正向（从左到右）预测；反向（从右到左）预测。下面，让我们通过一个示例来了解这两种方法的原理。这类模型在大量参数下对特征具有更强的抽取和表示能力，目前已成为主流。

例句：Paris is a beautiful city. I love Paris。让我们掩盖单词city，并以空白代替，如下所示。

Paris is a beautiful __. I love Paris.

然后，我们让模型预测空白处的词。如果使用正向预测，那么模型就会从左到右读取所有的单词，直到空白处，然后进行预测，如下所示。

Paris is a beautiful __.

如果使用反向预测，那么模型就会从右到左读取所有的单词，直到空白处，然后进行预测，如下所示。

__. I love Paris.

1.2 自动编码式语言模型

自动编码式语言模型：自动编码式语言模型同时利用了正向预测和反向预测的优势。在进行预测时，它会同时从两个方向阅读句子，所以自动编码式语言模型是双向的。

如下所示，为了预测单词city，自动编码式语言模型从两个方向阅读句子，即从左到右和从右到左。

Paris is a beautiful __. I love Paris

双向模型能够给出更好的结果，因为如果从两个方向阅读句子，模型就能够更加清晰地理解句子。

本文将结合具体模型和论文，探讨这两种模型的损失函数。

二、自动编码式语言模型

提到自动编码式语言模型，那最经典的非BERT莫属了。在GPT出现之前，以BERT为代表的模型几乎独领江湖。

2.1 BERT

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer架构的自然语言处理模型。它由Google于2018年提出，以解决语境相关性和双向理解的问题。BERT采用双向训练方式，能够同时考虑文本左右两侧的上下文信息，有效捕获语境含义。

BERT的损失函数 由两部分组成，第一部分是来自 Mask-LM 的单词级别分类任务，另一部分是句子级别的分类任务。通过这两个任务的联合学习，可以使得 BERT 学习到的表征既有 token 级别信息，同时也包含了句子级别的语义信息。

在第一部分的损失函数中，如果被 mask 的词集合为 M（即计算BERT的MLM loss时会忽略没被mask的token），因为它是一个词典大小 |V| 上的多分类问题，那么具体说来有：

在句子预测任务中，也是一个分类问题的损失函数：

这两个损失函数也很容易理解：

多分类问题，类别的数量等于词表的大小，第个词被正确预测的概率越大，相应的损失越小
二分类问题，第个句子的类别被正确预测的概率越大，相应的损失越小

因此，两个任务联合学习的损失函数是：

三、自动回归式语言模型

BERT一度引领了NLP领域。但是随着OpenAI-GPT系列模型的爆火，自回归式模型被更为广泛的采用。本章详细解析GLM大模型、LoRA微调方法、Prefix tuning这三篇论文中的损失函数。以期找到这些损失函数的共性。

3.1 GLM系列大模型

清华大学提出的GLM大模型预训练框架采用了自回归的空白填充方法，在自然语言理解、无条件生成、有条件生成等NLP任务上取得了显著成果。其中，GLM-130B是最大的模型，拥有1300亿参数，支持中英文双语，旨在训练出开源开放的高精度千亿中英双语语言模型。该模型采用了量化技术，可在4块3090（24G）或8块2080Ti（11G）上推理。

输入向量为，抽样出文本段，每个文本段都代表了一系列连续的token吗，可以写做，每个文本段都用[MASK]代表，从而形成了。表示抽样文本段的数量，表示每个抽样文本段的长度。预训练目标可以用下式表示：