自然语言处理NLP（3）

如何生成下一个新单词？

概率性的选择：根据概率分布进行选择，这样概率高的单词容易被选到，概率低的单词难以被选到。然后再把选中的词当作输入，再次选择下一个新的单词
seq2seq模型：Encoder-Decoder模型编码器-解码器模型

编码器对输入数据进行编码，解码器对被编码的数据进行解码

编码：就是将任意长度的文本转换为一个固定长度的向量

seq2seq由两个LSTM层构成：编码器的LSTM和解码器的LSTM。LSTM层的隐藏状态是编码器和解码器的桥梁，在正向传播时，编码器的编码信息通过LSTM层的隐藏状态传递给解码器；反向传播时，解码器的梯度通过这个桥梁传递给编码器
seq2seq改进
1. 反转输入数据 Reverse
  
  反转输入数据的顺序，反转数据后梯度的传播可以更加平滑
2. 偷窥 Peeky
  
  将集中了重要信息的编码器的输出h分配给解码器的其他层
seq2seq的应用
1. 聊天机器人 chatgpt
2. 算法学习
3. 自动图像描述
  
  编码器从LSTM换成CNN

Attention从数据中学习两个时序数据之间的对应关系，计算向量之间的相似度，输出这个相似度的加权和向量

结构

Attention层放入LSTM和Affine层之间

hs：LSTM中各个时刻的隐藏状态向量被整合为hs
双向RNN

让LSTM从两个方向进行处理：双向LSTM

各个单词对应的隐藏状态向量可以从左右两个方向聚集信息，这些向量就编码了更均衡的信息
Attention层的不同使用
1. Attention层放入LSTM和Affine层之间（垂直方向）
2. Attention层放入上一时刻的LSTM层、Affine层和当前时刻的LSTM层之间（时间方向）
seq2seq的深层化 & skip connection

为了让带Attention的seq2seq具有更强的表现力，加深LSTM层

在加深层时使用到的一个技巧是残差连接（skip connection / residual connection / shortcut）：是一种跨层连接的简单技巧
Attention应用
1. GNMT 谷歌神经机器翻译系统
2. Transformer
  
  Attention is all you need
  
  Transformer不用RNN，而用Attention进行处理：self-Attention
3. NTM Neural Turing Machine 神经图灵机
  
  计算机的内存操作可以通过神经网络复现：
  
  在rnn的外部配置一个存储信息的存储装置，使用Attention向这个存储装置读写必要的信息

GRU：Gated Recurrent Unit 门控循环单元