无所不能的Embedding（01） - 词向量三巨头之Word2vec模型详解&代码实现

大模型路线大纲+学习文档，在 >gitcode ←

word2vec是google 2013年提出的，从大规模语料中训练词向量的模型，在许多场景中都有应用，信息提取相似度计算等等。也是从word2vec开始，embedding在各个领域的应用开始流行，所以拿word2vec来作为开篇再合适不过了。

本文希望可以较全面的给出Word2vec从模型结构概述，推导，训练，和基于tf.estimator实现的具体细节。完整代码戳这里 github.com/DSXiangLi/E...

模型概述

word2vec模型结构比较简单，是为了能够在大规模数据上训练，降低了模型复杂度，移除了非线性隐藏层。根据不同的输入输出形式又分成CBOW和SG两种方法。

让我们先把问题简化成1v1的bigram问题，单词i作为context,单词j是target。V是单词总数，N是词向量长度，D是训练词对，输入xi∈R1∗Vxi∈R1∗V是one-hot向量。

模型训练两个权重矩阵,W∈RV∗NW∈RV∗N是输入矩阵，每一行对应输入单词的词向量,W′∈RV∗NW′∈RV∗N是输出矩阵，每一行对应输出单词的词向量。词i和词j的共现信息用词向量的内积来表达，通过softmax得到每个单词的概率如下

h=vwI=WTxivw′j=W′Txjuj=vTw′jhyj=p(wj|wI)=exp(uj)∑Vj′=1exp(uj′)(1)(2)(3)(4)(1)h=vwI=WTxi(2)vw′j=W′Txj(3)uj=vw′jTh(4)yj=p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)

对每个训练样本，模型的目标是最大化条件概率p(wj|wI)p(wj|wI), 因此我们的对数损失函数如下

E=−logP(wj|wI)=−u∗j+logV∑j′=1exp(uj′)(5)(6)(5)E=−logP(wj|wI)(6)=−uj∗+log∑j′=1Vexp(uj′)

CBOW : Continuous bag of words

CBOW是把bigram的输入context，扩展成了目标单词周围2*window_size内的单词，用中心词前后的语境来预测中心词。

对比bigram, CBOW只多做了一步操作，对输入的2 * Window_size个单词，在映射得到词向量后，需要做average_pooling得到1*N的输入向量, 所以差异只在h的计算。假定C=2∗window_sizeC=2∗window_sizeh=1CWT(x1+x2+...+xC)=1C(vw1+vw2+...+vwc)TE=−logp(wO|wI,1...wI,C)=−u∗j+logV∑j′=1exp(uj′)(7)(8)(9)(10)(7)h=1CWT(x1+x2+...+xC)(8)=1C(vw1+vw2+...+vwc)T(9)E=−logp(wO|wI,1...wI,C)(10)=−uj∗+log∑j′=1Vexp(uj′)

SG : Skip Gram

SG是把bigram的输出target，扩展成了输入单词周围2*window_size内的单词，用中心词来预测周围单词的出现概率。

对比bigram，SG的差异只在于输出概率多项分布不再是一个而是C个

E=−logp(wO,1,wO,2,...wO,C|wI)=C∑c=1u∗j,c+C⋅logV∑j′=1exp(uj′)(11)(12)(11)E=−logp(wO,1,wO,2,...wO,C|wI)(12)=∑c=1Cuj,c∗+C⋅log∑j′=1Vexp(uj′)

模型推导：word embedding是如何得到的？

下面我们从back propogation推导下以上模型结构是如何学到词向量的，为简化我们还是先从bigram来看，ηη是learning rate。

首先是hidden->output W′W′的词向量的更新

∂E∂vw′j=∂E∂uj∂uj∂vw′j=(p(wj|wi)−I(j=j∗))⋅h=ej⋅hv(new)w′j=v(old)w′j−η⋅ej⋅h(13)(14)(15)(16)(13)∂E∂vw′j=∂E∂uj∂uj∂vw′j(14)=(p(wj|wi)−I(j=j∗))⋅h(15)=ej⋅h(16)vw′j(new)=vw′j(old)−η⋅ej⋅h

ejej是单词j的预测概率误差，所以W′W′的更新可以理解为如果单词j被高估就从vw′jvw′j中减去η⋅ej⋅hη⋅ej⋅h，降低h和vw′jvw′j的向量内积(similarity)，反之被低估则在vw′jvw′j上叠加η⋅ej⋅hη⋅ej⋅h增加内积相似度，误差越大更新的幅度越大。

然后是input->hidden W的词向量的更新

∂E∂h=V∑j=1∂E∂uj∂uj∂h=V∑j=1ej⋅vw′jv(new)wI=v(old)wI−η⋅V∑j=1ej⋅vw′j(17)(18)(19)(17)∂E∂h=∑j=1V∂E∂uj∂uj∂h(18)=∑j=1Vej⋅vw′j(19)vwI(new)=vwI(old)−η⋅∑j=1Vej⋅vw′j

每个输入单词对应的词向量vwIvwI，都用所有单词的输出词向量按预测误差加权平均得到的向量进行更新。和上述的逻辑相同高估做subtraction，低估的做addition然后按误差大小进行加权来更新输入词向量。

所以模型学习过程会是输入词向量更新输出词向量，输出词向量再更新输入词向量，然后back-and-forth到达稳态。

把bigram拓展到CBOW，唯一的变化在于更新input-hidden的词向量时，不是每次更新一个单词对应的向量，而是用相同的幅度同时更新C个单词的词向量.

v(new)wI,c=v(old)wI,c−1Cη⋅V∑j=1ej⋅vw′jvwI,c(new)=vwI,c(old)−1Cη⋅∑j=1Vej⋅vw′j

把bigram拓展到SG，唯一的变化在于更新hidden-output的词向量时，不再是用单词j的预测误差，而是用C个单词的预测误差之和

v(new)w′j=v(old)w′j−η⋅C∑c=1ec,j⋅hvw′j(new)=vw′j(old)−η⋅∑c=1Cec,j⋅h

模型训练

虽然模型结构已经做了优化，移除了非线性的隐藏层，但是模型训练起来并不高效,瓶颈在于Word2vec本质是多分类任务，类别有整个vocabulary这么多，所以p(wj|wI)=exp(uj)∑Vj′=1exp(uj′)p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)每次需要计算整个vocabulary的概率O(VN)O(VN)。即便batch只有1个训练样本，也需要更新所有单词hidden->output的embedding矩阵。针对这个问题有两种解决方案

Hierarchical Softmax

如果把softmax看作一个1-layer tree,每个单词都是一个叶节点, 因为需要归一化所以计算每个单词的概率的复杂度是O(V)O(V)。Hierarchical Softmax只是把1-layer变成了multi-layer，在不增加embedding大小的情况下（V个叶节点，树有V-1个inner node), 把计算每个单词概率的复杂度降低到O(logV)O(logV)，直接用从root到叶节点的路径来计算每个单词的概率。树的构造作者选用了huffman tree,优点在于高频词从root到leaf的路径会比低频词更短，这样可以进一步加速训练，具体细节可以来看这篇博客huffman coding

例如下图（图片来源）

P(Horse)=P(0,left)⋅P(1,right)⋅P(2,left)(20)(20)P(Horse)=P(0,left)⋅P(1,right)⋅P(2,left)

那具体上面的p(0,left)要如何计算呢？

每一个node都有自己的embedding vn(w,j)vn(w,j), 既单词w路径上第j个node的embedding,输入输出的单词内积，变为输入单词和node的内积，每个单词的概率计算如下

p(w=wo)=L(w)−1∏j=1σ([n(w,j+1)=ch(n(w,j))]⋅vn(w,j)Th)p(w=wo)=∏j=1L(w)−1σ([n(w,j+1)=ch(n(w,j))]⋅vn(w,j)Th)

不得不说这个式子写的真是生怕别人能看懂>_<