【自然语言处理六-最重要的模型-transformer-下】

自然语言处理六-最重要的模型-transformer-下

  • [transformer decoder](#transformer decoder)
    • [Masked multi-head attention](#Masked multi-head attention)
    • [encoder和decoder的连接部分-cross attention](#encoder和decoder的连接部分-cross attention)
    • decoder的输出

transformer decoder

今天接上一篇文章讲的encoder 自然语言处理六-最重要的模型-transformer-上,继续讲transformer的decoder,也就是下图中的红框部分

可以看出encoder和decoder部分去掉粉红色框的部分,结构几乎一样,下面分三部分介绍不同点

Masked multi-head attention

decoder的注意力是masked的注意力,什么是masked的attention呢? 下面是self attention:

需要注意的是:

selfattention中注意力bi的输出是需要关注所有的输入,也就是下面那一整排向量

但如果是masked self-attention,注意力是这样子的:

这个与普通的self attention的区别

bi只能关注a0到ai的输入,不能包括ai+1后的输入,那么为什么需要masked attention呢?

用下面的语音辨识,举个例子说明一下:

encoder是把一次性把所有的输入都输入到模型,计算注意力分数,但是对于decoder来说,它是一个字一个字产生:

比如decoder计算第一个位置应该输入什么的时候,它并不知道下一个的输入是"機",所以必须遮蔽右边的输入,因此又叫masked self-attention。

decoder中下一次的输入是在本次输入BEGIN计算出来以后"機"这个字,作为下一次的输入。

需要说明的一点是:

实际上我们在训练的时候是知道每个输入的,因为这些信息是训练资料提供的,但真正测试使用的时候,是无法知晓的。

encoder和decoder的连接部分-cross attention

下面是encoder和decoder的互连部分:

相同的Add和Norm不再赘述,下面是attention部分,这个attention部分的输入分为3部分:

有两个箭头来自encoder的输出(这部分用作self attention中的k和v)

一个箭头来自decoder上一层的输出(这一部分用作q)

所以计算attention的流程是这样的:

左边这边encoder的输出,用于生成k v,右边decoder上一层的输出,用作q

按照普通的attention计算注意力分数后,最终生成v

然后进行add 残差连接和norm 归一化后,作为这一层的输出

然后继续输入到FC(feed forward netword)中

除了上面几部分不同,还需要关注的decoder如何处理输出。

decoder的输出

decoder输出的序列长度应该是多长呢?

比还是以语音辨识为例,输入一段语音究竟应该输出多少个字符根本无法确认,那么decoder究竟是怎么确定输出的长度的呢?有两种做法AT和NAT (AT是Autoregresssive的缩写)

AT(Autoregresssive)

这种做法就是让机器自己决定要输多少长度的sequence,当模型输出END的时候,就认为decoder输出完毕

NAT

这种情况下有几种方法确定decoder输出的长度:

1.添加一个网络来预测输出的长度

2.输入一排BEGIN向量,输出一排向量即可,最终的输出截止到输出为END

通常情况下,我们都是用AT,效果更好一些

相关推荐
FairyGirlhub23 分钟前
神经网络的初始化:权重与偏置的数学策略
人工智能·深度学习·神经网络
大写-凌祁4 小时前
零基础入门深度学习:从理论到实战,GitHub+开源资源全指南(2025最新版)
人工智能·深度学习·开源·github
焦耳加热5 小时前
阿德莱德大学Nat. Commun.:盐模板策略实现废弃塑料到单原子催化剂的高值转化,推动环境与能源催化应用
人工智能·算法·机器学习·能源·材料工程
深空数字孪生5 小时前
储能调峰新实践:智慧能源平台如何保障风电消纳与电网稳定?
大数据·人工智能·物联网
wan5555cn5 小时前
多张图片生成视频模型技术深度解析
人工智能·笔记·深度学习·算法·音视频
格林威6 小时前
机器视觉检测的光源基础知识及光源选型
人工智能·深度学习·数码相机·yolo·计算机视觉·视觉检测
今天也要学习吖7 小时前
谷歌nano banana官方Prompt模板发布,解锁六大图像生成风格
人工智能·学习·ai·prompt·nano banana·谷歌ai
Hello123网站7 小时前
glean-企业级AI搜索和知识发现平台
人工智能·产品运营·ai工具
AKAMAI7 小时前
Queue-it 为数十亿用户增强在线体验
人工智能·云原生·云计算
索迪迈科技7 小时前
INDEMIND亮相2025科技创变者大会,以机器人空间智能技术解锁具身智能新边界
人工智能·机器人·扫地机器人·空间智能·陪伴机器人