Transformer学习

这里写目录标题

Seq2Seq

语音翻译为何不直接用语音辨识+机器翻译?

因为有的语言没有文字,比如将狗叫翻译出来。

语法分析

将任务转化成翻译任务,硬训一发,效果不错。

文章归类问题

目标检测

Transformer

Encoder结构

multi-head attention block

为何batch-norm 不如 layer-norm?

https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330

Decoder结构

decoder流程

decoder结构

encoder和decoder基本一样,decoder多了一个masked mutil-head attention

decoder比encoder多了一个masked self-attention,why?

因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出

decoder如何决定自己输出的长度?

增加一个停止token,一般来会跟begin用一个符号

Decoder-Non-autoregressive(NAT)

NAT decoder如何决定输出长度?

  1. 训练一个分类器用来预测输出长度
  2. 输出一个固定的较长的长度,通过END tocken来截取最终输出

优势

  1. AT decoder需要一个一个输出,NAT可以一次输出整个
  2. 较容易控制输出长度,比如在语音合成的应用

劣势

NAT的表现通常不如AT。原因:multi-modality

Transformer结构

cross attention

训练

训练和测试的区别

相关推荐
jinglong.zha3 小时前
LScript-从零基础到商业变现的AI自动化学习平台
运维·学习·自动化
闪闪发亮的小星星3 小时前
STK_00 学习方案路线
学习
星浩AI3 小时前
(七)GPT2中文生成模型定制化微调训练[附源码]
pytorch·深度学习·llm
卡梅德生物科技小能手4 小时前
卡梅德生物科普MCAM(黑色素瘤细胞黏附分子)
人工智能·经验分享·深度学习
一楼的猫4 小时前
茄子写作助手——品牌搜索突破9万后的技术型品牌认知与官网入口指南
人工智能·学习·机器学习·chatgpt·ai写作
AOwhisky4 小时前
学习自测与解析:MySQL第五、六、七期核心知识点详解
运维·数据库·笔记·学习·mysql·云计算
月疯4 小时前
torch:expand和repeate的区别
开发语言·python·深度学习
niuniuyi~4 小时前
QT学习笔记
笔记·qt·学习
咸甜适中4 小时前
rust语言学习笔记Trait(十六)Error(错误)
笔记·学习·rust
xuhaoyu_cpp_java5 小时前
项目学习(三)代码生成器
java·经验分享·笔记·学习