文本预测和分类任务

核心在于：语言模型通过分类任务的形式，实现对文本统计规律的学习。下面分 3 步拆解：

当我们说 "文本里'天王盖地虎'经常一起出现"，本质是观察到一个条件概率：

语言模型如何实现上述概率估计？通过分类任务：

词汇表中的每个词，被视为一个 "类别"（比如 "虎" 是类别 5，"猫" 是类别 100）。
模型的输出层 （如你代码中的 self.projection_layer），将隐藏层特征映射到词汇表大小的维度，每个维度对应一个词的 "得分"。
通过 softmax 将得分转化为概率分布，使得： \(P(w_i | \text{前文}) = \frac{\exp(\text{得分}_i)}{\sum_j \exp(\text{得分}_j)}\)
训练目标：最大化真实词的预测概率（等价于最小化交叉熵损失）。

从数学角度看，分类任务的定义是：

给定输入 x，预测其属于 K 个类别中的哪一个。

在语言模型中：

因此，预测下一个词的任务，本质上是一个 "从词汇表中选择最可能类别的分类问题"。

模型通过分类任务学习统计规律的过程：

假设词汇表只有 3 个词：["猫", "虎", "苹果"]，对应类别 ID [0, 1, 2]。

这就是通过分类任务实现统计规律的量化表达。

所以，分类是手段，统计规律是目标，二者通过深度学习模型紧密结合。