Transformer学习

这里写目录标题

Seq2Seq

语音翻译为何不直接用语音辨识+机器翻译?

因为有的语言没有文字,比如将狗叫翻译出来。

语法分析

将任务转化成翻译任务,硬训一发,效果不错。

文章归类问题

目标检测

Transformer

Encoder结构

multi-head attention block

为何batch-norm 不如 layer-norm?

https://arxiv.org/abs/2003.07845
https://zhuanlan.zhihu.com/p/428620330

Decoder结构

decoder流程

decoder结构

encoder和decoder基本一样,decoder多了一个masked mutil-head attention

decoder比encoder多了一个masked self-attention,why?

因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出

decoder如何决定自己输出的长度?

增加一个停止token,一般来会跟begin用一个符号

Decoder-Non-autoregressive(NAT)

NAT decoder如何决定输出长度?

  1. 训练一个分类器用来预测输出长度
  2. 输出一个固定的较长的长度,通过END tocken来截取最终输出

优势

  1. AT decoder需要一个一个输出,NAT可以一次输出整个
  2. 较容易控制输出长度,比如在语音合成的应用

劣势

NAT的表现通常不如AT。原因:multi-modality

Transformer结构

cross attention

训练

训练和测试的区别

相关推荐
wxr06167 分钟前
GIT学习
git·学习
其美杰布-富贵-李10 分钟前
深度学习中的 tmux
服务器·人工智能·深度学习·tmux
oraen31 分钟前
【AI学习-2.1】部署自己的本地大模型 -本地推理
学习
LaughingZhu38 分钟前
Product Hunt 每日热榜 | 2026-01-12
人工智能·经验分享·深度学习·神经网络·产品运营
不如自挂东南吱44 分钟前
空间相关性 和 怎么捕捉空间相关性
人工智能·深度学习·算法·机器学习·时序数据库
لا معنى له1 小时前
学习笔记:Restormer: Efficient Transformer for High-Resolution Image Restoration
图像处理·笔记·学习·计算机视觉·transformer
科技林总1 小时前
【系统分析师】3.4 指令系统
学习
长颈鹿仙女1 小时前
深度学习详解拟合,过拟合,欠拟合
人工智能·深度学习
li星野1 小时前
OpenCV4.X学习-视频相关
学习·音视频
知乎的哥廷根数学学派1 小时前
基于多尺度注意力机制融合连续小波变换与原型网络的滚动轴承小样本故障诊断方法(Pytorch)
网络·人工智能·pytorch·python·深度学习·算法·机器学习