四、神经网络语言模型(NNLM)

神经网络(Neural Network,NN)主要由输入层、隐藏层、输出层构成,输入层的的节点数等于待处理数据中输入变量的个数(每一个变量代表了一个特征),输出层的节点数等于与每个输入变量关联的输出的数量(代表了分类标签的个数)。

不论是回归还是分类任务,输入和输出层的节点数是固定的(在做二分类时,如果采用 sigmoid 分类器,输出层的个数为 1 个;如果采用 softmax 分类器,输出层个数为2个)

一个基本的三层神经网络可见下图:

理论上,隐藏层的层数越深,拟合函数的能力越强,效果按理说会更好,但是实际上更深的层数可能会带来过拟合的问题,同时也会增加训练难度,使模型难以收敛。参考神经网络的理解与实现

神经网络语言模型(Neural Network Language Model, NNLM)

具体实现代码请参考Python实现神经网络语言模型

神经网络语言模型的目标是根据上图中最下方的 W{t-n+1},...,W{t-2}, W{t-1} 已知的 (n-1) 个词,来预测第 (n) 个词 W{t}。

数学符号说明:

  • |V|:表示去重后的词汇表(词库)的大小(长度)
  • C:表示词向量,计算词向量表,大小为 len(|V|) × m 的矩阵,行数表示词汇表的大小 |V|,每一行的内容代表一个词对应的 Word Embedding 值;列数表示词向量C(w) 的维度 m
  • C(W):表示词W所对应的词向量
  • m:表示词向量C(W)的维度
  • W:输入层到输出层的权重
  • H:表示输入层到隐藏层的权重矩阵
  • d:隐藏层的偏置
  • U:隐藏层到输出层的权重矩阵
  • b:输出层的偏置
  • ℎ:隐藏层神经元的个数

激活函数sigmoid, tanh, softmax, relu之间的优缺点

  • tanh函数是一个奇函数,其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线,其图像被限制在两水平渐近线y=1和y=-1之间。
  • sigmoid函数是将一个real value映射到(0,1)的区间,用来做二分类。
  • softmax函数是把一个 k 维的real value向量(a1,a2,a3,a4.)映射成一个(b1,b2,b3,b4...)其中 bi 是一个 0~1 的常数,输出神经元之和为 1.0,相当于概率值,然后可以根据 bi 的概率大小来进行多分类的任务。
  • relu函数是当输入x大于0时,函数返回值为其本身。当输入x小于0时,函数返回值为0。神经网络中使用relu函数可以取得很好的拟合效果,运算简单,效率高。

续激活函数relu, swish, mish, gelu优缺点及对应函数图像

  • 网络的第一层(输入层)是将前 (n-1) 个词 Wi 进行 one-hot 编码,然后乘以矩阵 C 转为词向量 C(Wi),接着将这 (n-1) 个词向量首尾相连拼接起来,形成一个 (n-1) × W 的输入向量,用 X 表示。
  • 网络的第二层(隐藏层)是用 hidden = tanh(d + X × H) 计算得到,用tanh作为激活函数。
  • 网络的第三层(输出层)是表示输出 |V| 个节点,每个节点 yi 表示预测下一个单词 i 的未归一化的概率。使用softmax函数将输出值 y 归一化,最终 y 的计算公式如下:y = softmax(b + X × W + U × hidden)
  • 最后,用随机梯度下降法进行模型优化。

神经网络二分类模型代码(激活函数使用tanh和sigmoid)

相关推荐
封步宇AIGC2 分钟前
量化交易系统开发-实时行情自动化交易-Okex交易数据
人工智能·python·机器学习·数据挖掘
z千鑫4 分钟前
【人工智能】利用大语言模型(LLM)实现机器学习模型选择与实验的自动化
人工智能·gpt·机器学习·语言模型·自然语言处理·自动化·codemoss
shelly聊AI6 分钟前
AI赋能财务管理,AI技术助力企业自动化处理财务数据
人工智能·财务管理
波点兔7 分钟前
【部署glm4】属性找不到、参数错误问题解决(思路:修改模型包版本)
人工智能·python·机器学习·本地部署大模型·chatglm4
佚明zj1 小时前
全卷积和全连接
人工智能·深度学习
qzhqbb4 小时前
基于统计方法的语言模型
人工智能·语言模型·easyui
冷眼看人间恩怨4 小时前
【话题讨论】AI大模型重塑软件开发:定义、应用、优势与挑战
人工智能·ai编程·软件开发
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
AI极客菌5 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭5 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention