Transformer模型-3-基本工作流程

继 《Transformer模型-2-模型架构》笔者该文章中将分享Transformer的基本工作流程。

第一步: 获取输入句子中每一个单词的向量X。

X:是指某单词的向量,transformer是分别计算word embedding和position embedding并将两者相加得到向量X。

向量获取: 假设有一个1000千万的数据按词(早期按字去切分)切分, 再根据词表大小建立了一个数据矩阵或lookup的一张表,该矩阵或表的特点如下:

  • 行数,有多少词就有多少行
  • 列数:取决于模型的维度(训练维度),可以是768维,512维等,具体要根据模型的维度和输入数据要求的维度(Transformer是512维,BERT是768维)
  • index:每一行代表一个词,第一行(词)都有一个唯一的index,每一个index对应到矩阵中的一行(0开始计),按词的列表做一个倒排,哪一个词出现的更多,就更靠前。
  • 查询:用index去矩阵中去(lookup)查,可以查到唯一的记录。查询返回第index行的向量,拿到该向量可作为词的表征

Embedding 把字或词转为向量的动作或行为。在机器学习、深度学习中我们用向量表示物体的,这个物体可以是一个单词、一条语句、一个序列、一件商品、一个动作、一本书、一部电影等。拿到语料之后,首先需要做一些必要的清理工作 ,如清理特殊符号、格式转换、过滤停用词等,然后进行分词、索引化,再利用相关模型或算法把单词、词等标识符向量化。最后输出给下游任务,如下图:

词嵌入或预训练模型是关键,它们的质量好坏直接影响下游任务的效果。如word2vec、Transformer、BERT、ALBERT等方法。刷新了自然语言处理、语言识别、推荐任务、搜索排序等任务在性能方面的纪录 (为解释清楚引啥是Embedding(嵌入技术)文字说明)

Transformer中包含两种Embedding:

  1. word embedding:将字或词转为index之后,查表转化为向量,经过模型的迭代之后,矩阵会越来越准确,生成的Embedding的结果就会越来越发。
  2. position embedding:告诉模型正确的语序(transformer不是时序模型,是并行输入的,需要专门的位置Embedding才能知道句子顺序)。

第二步:将得到的单词表示向量矩阵传入Encoder

将得到的单词表示向量矩阵(每一行是一个单词的向量x ) 传入Encoder中,经过6个 Encoder block 后可以得到句子所有单词的编码信息矩阵 C,如下图:

Transformer的Encoder的6层中,每一层的结构相同,经过6层的结构处理,每一层的输出是下一层的输出。

单词向量矩阵用 <math xmlns="http://www.w3.org/1998/Math/MathML"> X n ∗ d X_{n*d} </math>Xn∗d 表示, n是句子中单词个数,d 是表示向量的维度 (论文中 d=512)。每一个 Encoder block 输出的矩阵维度与输入完全一致。

第三步:将Encoder输出的编码信息矩阵C传递到Decoder中

将Encoder输出的编码信息矩阵C 传递到Decoder中,Decoder依次会根据当前翻译过的第i个单词,翻译下一个单词(i+1),如下图所示。在使用的过程中,翻译到第i+1单词时候需要通过Mask操作遮盖住(i+1)之后的单词。

在Transformer中Decoder的6层结构,每一步都会结合 Encoder 输出的编码信息矩阵 C 执行,最后输出预测结果

下图展示了 Transformer 使用时候的大致流程: Decoder接收了Encoder的编码矩阵C,然后首先输入一个翻译开始符 "",预测第一个单词 "I";然后输入翻译开始符 "" 和单词 "I",预测单词 "love",以此类推。

后记:笔者在课上听了云里雾里,线下查阅了很多资料整理而成,如还有错误,望指出定改。

相关推荐
春末的南方城市26 分钟前
FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!
人工智能·计算机视觉·stable diffusion·aigc·图像生成
zmjia11128 分钟前
AI大语言模型进阶应用及模型优化、本地化部署、从0-1搭建、智能体构建技术
人工智能·语言模型·自然语言处理
jndingxin42 分钟前
OpenCV视频I/O(14)创建和写入视频文件的类:VideoWriter介绍
人工智能·opencv·音视频
AI完全体1 小时前
【AI知识点】偏差-方差权衡(Bias-Variance Tradeoff)
人工智能·深度学习·神经网络·机器学习·过拟合·模型复杂度·偏差-方差
GZ_TOGOGO1 小时前
【2024最新】华为HCIE认证考试流程
大数据·人工智能·网络协议·网络安全·华为
sp_fyf_20241 小时前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02
人工智能·神经网络·算法·计算机视觉·语言模型·自然语言处理·数据挖掘
新缸中之脑1 小时前
Ollama 运行视觉语言模型LLaVA
人工智能·语言模型·自然语言处理
卷心菜小温2 小时前
【BUG】P-tuningv2微调ChatGLM2-6B时所踩的坑
python·深度学习·语言模型·nlp·bug
胡耀超2 小时前
知识图谱入门——3:工具分类与对比(知识建模工具:Protégé、 知识抽取工具:DeepDive、知识存储工具:Neo4j)
人工智能·知识图谱
陈苏同学2 小时前
4. 将pycharm本地项目同步到(Linux)服务器上——深度学习·科研实践·从0到1
linux·服务器·ide·人工智能·python·深度学习·pycharm