机器学习(李宏毅)——Transformer

一、前言

本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!!

读这篇文章必须先了解self-attention,可参阅我上一篇。

二、大纲

  • Transformer问世
  • 原理剖析
  • 模型训练

三、Transformer问世

2017 年在文章《Attention Is All You Need》被提出的。应用于seq2seq模型,当时直接轰动。

四、原理剖析

两部分组成:Encoder 和 Decoder

  • Encoder 结构
    接下来从大到小一层层剥开:

剥一下:

输入一排向量,输出一排向量

剥两下:

Encoder 由多个Block组成,串联起来

剥三下:

Block装的是啥?原来是Self-attention!

剥四下:

Self-attention原来加入了residual和Layer Normal,至此剥完了。

说明:

上图自底向上看,关键点:

1、residual结构,输入接到输出送入下一层,残差结构;

2、Layer Normal,具体如下图:

算出标准差和均值后,套用公式计算即可。

以上就是Encoder的全部了!

论文中是这么画图表达的:

注:Positional Encoding是self-attention的位置资讯。

  • Decoder 结构
    有两种方法生成输出:Auto Regressive 和 Non Auto Regressive。

Auto Regressive

给个START符号,把本次输出当做是下一次的输入,依序进行下去。

Non Auto Regressive

输入是一排的START符号,一下子梭哈突出一排输出。

Encoder结构长啥样?

接下来看下结构长啥样,先遮住不一样的部分,其他部分结构基本一致,只不过这里用上了Masked Multi-Head Attention

Masked Multi-Head Attention

啥是Masked Multi-Head Attention?Masked有啥含义?

可以直接理解为单向的Multi-Head Attention,而且是从左边开始:

说明:这也很好理解,右边的字符都还没输出出来怎么做运算,因此只能是已经吐出来的左边的内容做self-attention,这就是masked的含义。

遮住的部分是啥?(cross attention)

最后这边遮住的部分到底是啥玩意?

别想太复杂,就还是self-attention。

corss的意思就是v,k来自Encoder,q来自Decoder,仅此而已。

其实也好理解,Decoder是去还原结果的,那可不得抽下Encoder编码时候的资讯和上下文语义信息才能还原,缺一不可。

比喻下,前者让输出紧扣题意,后者让其说人话。

小结

至此,Transformer的结构就阐述完了,无非就是Encoder + Decoder,建议自己在草稿纸上画画能够加深印象。

五、模型训练

transformer的模型训练用的还是cross entropy。

实战过程中的tips

  • copy mechanism
    例如:
    Machine Translation(机器翻译),可能使用原文复制这个技能对于模型而言比较容易,毕竟它不需要创造新词汇了嘛,这就是copy mechanism。
  • Guided Attention

意思就是不要乱Attention,有的放矢地让模型做attention。

  • Beam Search

    基本思想就是不要步步好,有可能短期不好但是长期更好。说的和人生似的。
    如果模型需要有点创造力,不适合用此方法,这是实做后的结论。

训练过程记得让模型看些负样本,不至于模型一步错步步错,(schedule sampling方法)。

五、小结

最基本的掌握好Encoder和Decoder就很可以了,其他的在实做过程中遇到问题再问问AI工具。

相关推荐
不会用AI的老炮12 小时前
【AI coding 智能体设计系列-07】规约驱动:让交付可复现的Spec工作流
人工智能·ai·ai编程
Narrastory12 小时前
混合高斯模型全解析:原理,应用与代码实现
机器学习
产品人卫朋12 小时前
「产品、IPD、战略、流程」知识图谱速查清单.v7.0
人工智能·知识图谱·产品经理·需求分析·创业·ipd流程·华为ipd
用户51914958484512 小时前
深入剖析CVE-2025-41115:Grafana企业版SCIM特权升级漏洞利用实践
人工智能·aigc
苏子铭12 小时前
个人笔记,关于数学工具箱功能规划与架构设计
人工智能·机器学习
盈创力和200712 小时前
从“感知”到“认知”:基于边缘AI的以太网多参量环境传感器如何重构工业物联终端?
人工智能·以太网多合一传感器·以太网温湿度气体多参量传感器
rit843249912 小时前
基于高斯混合模型(GMM)的语音识别系统:MATLAB实现与核心原理
人工智能·matlab·语音识别
容智信息12 小时前
Hyper Agent:企业级Agentic架构怎么实现?
人工智能·信息可视化·自然语言处理·架构·自动驾驶·智慧城市
Julyers12 小时前
【Paper】FRST(快速径向对称变换)算法
图像处理·人工智能·计算机视觉·圆检测
Bony-12 小时前
驾驶员行为检测:基于卷积神经网络(CNN)的识别方法
人工智能·神经网络·cnn