Transformer学习

这里写目录标题

Seq2Seq

语音翻译为何不直接用语音辨识+机器翻译?

因为有的语言没有文字,比如将狗叫翻译出来。

语法分析

将任务转化成翻译任务,硬训一发,效果不错。

文章归类问题

目标检测

Transformer

Encoder结构

multi-head attention block

为何batch-norm 不如 layer-norm?

https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330

Decoder结构

decoder流程

decoder结构

encoder和decoder基本一样,decoder多了一个masked mutil-head attention

decoder比encoder多了一个masked self-attention,why?

因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出

decoder如何决定自己输出的长度?

增加一个停止token,一般来会跟begin用一个符号

Decoder-Non-autoregressive(NAT)

NAT decoder如何决定输出长度?

  1. 训练一个分类器用来预测输出长度
  2. 输出一个固定的较长的长度,通过END tocken来截取最终输出

优势

  1. AT decoder需要一个一个输出,NAT可以一次输出整个
  2. 较容易控制输出长度,比如在语音合成的应用

劣势

NAT的表现通常不如AT。原因:multi-modality

Transformer结构

cross attention

训练

训练和测试的区别

相关推荐
菜鸟‍12 小时前
【论文学习】重新审视面向持续图像分割的基于查询的 Transformer || 用于二分类图像分割的多视图聚合网络
人工智能·学习·计算机视觉
JeffDingAI13 小时前
【Datawhale学习笔记】RLHF微调技术及实践
人工智能·笔记·学习
Yupureki13 小时前
《算法竞赛从入门到国奖》算法基础:搜索-记忆化搜索
c语言·c++·学习·算法·深度优先
AI街潜水的八角13 小时前
语义分割实战——基于EGEUNet神经网络印章分割系统3:含训练测试代码、数据集和GUI交互界面
人工智能·深度学习·神经网络
Chunyyyen13 小时前
【第三十二周】RAG学习02
学习
强子感冒了13 小时前
MySQL学习随笔:数据类型与字段约束
学习·mysql
tritone14 小时前
学习Chef自动化配置管理工具,为了实践环境部署,我选择了**阿贝云**的**免费虚拟主机**和**免费云服务器**来搭建测试平台。
服务器·学习·自动化
小慧102414 小时前
煤矿井下辅助运输电机车障碍物感知的多模态融合方法
深度学习
xian_wwq14 小时前
【学习笔记】特权账号管理(PAM)
笔记·学习·pam
星火开发设计14 小时前
const 指针与指针 const:分清常量指针与指针常量
开发语言·c++·学习·算法·指针·const·知识