【自然语言处理-二-attention注意力是什么】

自然语言处理二-attention 注意力机制

[自然语言处理二-attention 注意力](#自然语言处理二-attention 注意力)
- 记忆能力
- [回顾下RNN（也包括LSTM GRU）解决memory问题](#回顾下RNN（也包括LSTM GRU）解决memory问题)
- 改进后基于attention注意力的model
- - match操作
  - softmax操作
  - [softmax值与hidder layer的值做weight sum 计算和](#softmax值与hidder layer的值做weight sum 计算和)
  - 将计算出来的和作为memory，成为decoder输入的一部分
  - 依次计算decoder其他输入

自然语言处理二-attention 注意力

自然语言处理离不开attention的概念，当然attention的机制不仅仅用在自然语言处理。

那么attention到底是什么呢？Attention可以理解成一种记忆能力，而人工智能需要具备推理、人工智慧等能力，那记忆能力就必不可少。

记忆能力

记忆能力分为三种sensory memory、working memory、Long-term memory

Sensory memory记忆的时间很短，一般通过外界输入，比如眼睛和耳朵可以看到的东西

Working memory 真正感知世界的信息，选择人应该attention的东西，比如眼睛一瞬间可以看到很多东西，但我们会根据当下的需要，attention其中的一部分。

Long-term memory 真正要处理感知到的这些信息，还需要长期记忆，从长期记忆中提取到本次处理需要的信息，然后处理了后再encode到长期记忆中。比如说我们看到本次讲课的内容，需要回忆很久之前课程讲解的内容，消化后我们会再更新到长期记忆中。

整个过程就如下：

生物学上的注意力，也是遵从这个过程的。

Attention based的model如果对应于上述memory的处理过程，其实可以分为两部分：

1.第一部分是sensory memory和working memory之间，这部分用于处理模型的输入，用于关注模型中的部分输入。

2.第二部分是working memory和long-term之间，这部分也不陌生在老的模型，RNN和LSTM等模型中就具备这种记忆能力，但是这些模型有些缺点，越大的memory就意味着更多的参数，比如RNN中需要memory是K*K大小（K是memory size），参数过多很容易overfit(过拟合)。但是attention based的model就解决了这种问题，参加memory的size不会增加参数数量，这部分会在后面解释。