四、神经网络语言模型（NNLM）

神经网络（Neural Network，NN）主要由输入层、隐藏层、输出层构成，输入层的的节点数等于待处理数据中输入变量的个数（每一个变量代表了一个特征），输出层的节点数等于与每个输入变量关联的输出的数量（代表了分类标签的个数）。

不论是回归还是分类任务，输入和输出层的节点数是固定的（在做二分类时，如果采用 sigmoid 分类器，输出层的个数为 1 个；如果采用 softmax 分类器，输出层个数为2个）

一个基本的三层神经网络可见下图：

理论上，隐藏层的层数越深，拟合函数的能力越强，效果按理说会更好，但是实际上更深的层数可能会带来过拟合的问题，同时也会增加训练难度，使模型难以收敛。参考神经网络的理解与实现

神经网络语言模型（Neural Network Language Model, NNLM）

具体实现代码请参考Python实现神经网络语言模型

神经网络语言模型的目标是根据上图中最下方的 W{t-n+1},...,W{t-2}, W{t-1} 已知的 (n-1) 个词，来预测第 (n) 个词 W{t}。

数学符号说明：

|V|：表示去重后的词汇表（词库）的大小（长度）

C：表示词向量，计算词向量表，大小为 len(|V|) × m 的矩阵，行数表示词汇表的大小 |V|，每一行的内容代表一个词对应的 Word Embedding 值；列数表示词向量C(w) 的维度 m

C(W)：表示词W所对应的词向量

m：表示词向量C(W)的维度

W：输入层到输出层的权重

H：表示输入层到隐藏层的权重矩阵

d：隐藏层的偏置

U：隐藏层到输出层的权重矩阵

b：输出层的偏置

ℎ：隐藏层神经元的个数

激活函数sigmoid, tanh, softmax, relu之间的优缺点

tanh函数是一个奇函数，其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线，其图像被限制在两水平渐近线y=1和y=-1之间。

sigmoid函数是将一个real value映射到（0,1）的区间，用来做二分类。

softmax函数是把一个 k 维的real value向量（a1,a2,a3,a4.）映射成一个（b1,b2,b3,b4...）其中 bi 是一个 0～1 的常数，输出神经元之和为 1.0，相当于概率值，然后可以根据 bi 的概率大小来进行多分类的任务。

relu函数是当输入x大于0时，函数返回值为其本身。当输入x小于0时，函数返回值为0。神经网络中使用relu函数可以取得很好的拟合效果，运算简单，效率高。

续激活函数relu, swish, mish, gelu优缺点及对应函数图像

网络的第一层(输入层)是将前 (n-1) 个词 Wi 进行 one-hot 编码，然后乘以矩阵 C 转为词向量 C(Wi)，接着将这 (n-1) 个词向量首尾相连拼接起来，形成一个 (n-1) × W 的输入向量，用 X 表示。

网络的第二层(隐藏层)是用 hidden = tanh(d + X × H) 计算得到，用tanh作为激活函数。

网络的第三层(输出层)是表示输出 |V| 个节点，每个节点 yi 表示预测下一个单词 i 的未归一化的概率。使用softmax函数将输出值 y 归一化，最终 y 的计算公式如下：y = softmax(b + X × W + U × hidden)

最后，用随机梯度下降法进行模型优化。

神经网络二分类模型代码（激活函数使用tanh和sigmoid）