encoder和decoder结构

1. 编码器(Encoder):

  • 编码器处理输入数据(例如,句子中的词序列),并将其压缩成一个固定大小的上下文向量或一系列上下文向量。
  • 这一部分通常由多层递归神经网络(RNNs)、长短期记忆网络(LSTMs)、门控循环单元(GRUs)或最近的Transformer网络组成。
  • 编码器逐步读取输入序列,并在每一步更新其隐藏状态。最终的隐藏状态或一系列隐藏状态就包含了输入序列的信息。

2. 上下文向量(Context Vector):

  • 上下文向量是输入序列的压缩表示。在传统的编码器-解码器模型中,这是一个单一的向量,但在更先进的模型如基于注意力机制的模型中,它可以是一系列向量。
  • 该向量作为输入数据的摘要,解码器将使用它来生成输出。

3. 解码器(Decoder):

  • 解码器接收编码器生成的上下文向量(或多个向量),逐步生成输出序列。
  • 与编码器类似,解码器可以由RNNs、LSTMs、GRUs或Transformers组成。
  • 解码器在生成输出序列的每一个标记时,会参考上下文向量和已生成的标记。
  • 在机器翻译等任务中,解码器一次预测一个词,并将其输出反馈给自身,以预测下一个词。

注意力机制(Attention Mechanism)(可选但常用):

  • 在许多现代的编码器-解码器架构中,使用注意力机制使解码器在生成每个输出标记时可以关注输入序列的不同部分。
  • 通过注意力机制,解码器可以访问编码器生成的整个隐藏状态序列,并在每个解码步骤中对它们进行不同的加权。
相关推荐
bst@微胖子4 小时前
PyTorch深度学习框架之基础实战二
人工智能·深度学习
狮子座明仔6 小时前
体验式强化学习:让模型学会“吃一堑长一智“
人工智能·深度学习·自然语言处理
童园管理札记7 小时前
【记录模板】大班科学小游戏观察记录(盐主题:《会变魔术的盐》)
经验分享·深度学习·职场和发展·学习方法·微信公众平台
CelestialYuxin10 小时前
A.R.I.S.系统:YOLOx在破碎电子废料分拣中的新探索
人工智能·深度学习·算法
ppppppatrick11 小时前
【深度学习基础篇】手算卷积神经网络:13道经典题全解析(考研/面试必备)
深度学习·考研·cnn
狮子座明仔12 小时前
REDSearcher:如何用30B参数的小模型,在深度搜索上击败GPT-o3和Gemini?
人工智能·gpt·深度学习·microsoft·语言模型·自然语言处理
万里鹏程转瞬至12 小时前
论文阅读 | SLA:sparse–linear attion视频生成95%稀疏度FLOPs降低20倍
论文阅读·深度学习·aigc
肾透侧视攻城狮13 小时前
《模型保存加载避坑指南:解锁SavedModel、HDF5与自定义对象的正确姿势》
深度学习·机器学习·tensorfl模型保存与加载·savedmodel 格式·hdf5 文件加载·选择性保存与加载·模型保存与加载高效化
2401_8288906413 小时前
通用唤醒词识别模型 - Wav2Vec2
人工智能·python·深度学习·audiolm
gorgeous(๑>؂<๑)14 小时前
【ICLR26-Oral Paper-字节跳动】推理即表征:重新思考图像质量评估中的视觉强化学习
人工智能·深度学习·神经网络·机器学习·计算机视觉