【NLP】从变形金刚到Transfomer 01

Transformer是一种非常强大的模型，在自然语言处理（NLP）领域里引起了一场革命。

"从变形金刚到技术革命家，Transformer不再仅是儿时屏幕上的英雄。🤖✨ 在今天的AI领域，它变身成为自然语言处理的超级英雄，领导着一场深刻的学习革命。🚀💡 现在我们一起探索这个使机器理解人类语言成为可能的技术奇迹。#NLP #AI革命 #Transformer"

[01 基本概念：](#01 基本概念：)

[02 关键特点：](#02 关键特点：)

[03 应用领域：](#03 应用领域：)

[04 编码器原理](#04 编码器原理)

[4.1 位置编码（Position Embedding）](#4.1 位置编码（Position Embedding）)

[4.2 自注意力机制(self-attention)](#4.2 自注意力机制(self-attention))

[4.3 多头机制 multi-head](#4.3 多头机制 multi-head)

[4.4 残差机制](#4.4 残差机制)

[4.5 Feed Forward](#4.5 Feed Forward)

01 基本概念：

Tansformer模型最初是在2017年由谷歌团队发表的论文《Attention is All You Need》中被提出的。它的核心思想是利用 "自注意力（Self-Attention）"机制来处理序列数据，这让它 处理长距离依赖问题时能欧表现出非常优异的性能。与此同时,Transformer模型的并行处理能力**，大大减少了训练时间。

02 关键特点：

自注意力机制（self-Attention）：使模型能够关注序列中的不同位置，为每个位置的词生成上下文相关的表示。
多头注意力（Multi-Head Attentio）:通过并行学习序列中不同子空间的信息，增强了模型捕捉不同上下文信息的能力。
位置编码（Positional Encodding）:由于Transformer完全基于注意力机制，没有循环(RNN)或卷积（CNN）结构，它通过位置编码来了解单词在句子中的位置关系。
层归一化（Layer Normalization）和残差连接（Residul Connection）：这些技术帮助模型在训练深层网络时保持稳定，加速收敛。