ELMo——Embeddings from Language Models原理速学

传统的词向量表示：一个单词对应一个固定的向量，尽管一个单词可能存在多个含义

用来计算一个句子序列是不是一个拥有真正语句含义的概率。

计算当前词语对前面词语依赖关系：先计算t1出现的概率 * t1出现前提下t2出现的概率 * ...

LSTM（Long Short-Term Memory） 是一种特殊的循环神经网络（RNN） ，由Hochreiter & Schmidhuber于1997年提出，专门用于解决传统RNN的长期依赖问题（即难以学习远距离时序信息的问题）。

前向LSTM

初始token e1 -->LSTM--->隐藏的输出向量（LSTM中）-->分类层---> 第二个token t2

初始token e2 + 前一个LSTM中的隐藏输出向量 --> LSTM ---> 分类层 ---> 第三个token t3

后向LSTM

双向Bi-directional LSTM

使用的是两层Bi-LSTM

输入token e1 + 两层LSTM中的隐层向量（每一层因为是双向也有两个隐藏向量）= 5 个向量表示

相当于一个词语 = 2*层数 + 1 个向量表示。

具体用的哪一个表示？

EMLo用的加权和的方式，综合所有层的向量，给每个向量赋予不同的权重。

底层更多蕴含句法上的特征信息；顶层蕴含更多语义信息。

ELMo的双向上下文信息是通过独立的前向LSTM和反向LSTM输出的直接拼接（concat）实现的，而非真正的交互式融合。这导致：

ELMo对不同层LSTM的输出进行线性加权，但这些权重在预训练后固定，微调时仅能调整全局缩放因子，灵活性不足。