encoder和decoder结构

1. 编码器(Encoder):

  • 编码器处理输入数据(例如,句子中的词序列),并将其压缩成一个固定大小的上下文向量或一系列上下文向量。
  • 这一部分通常由多层递归神经网络(RNNs)、长短期记忆网络(LSTMs)、门控循环单元(GRUs)或最近的Transformer网络组成。
  • 编码器逐步读取输入序列,并在每一步更新其隐藏状态。最终的隐藏状态或一系列隐藏状态就包含了输入序列的信息。

2. 上下文向量(Context Vector):

  • 上下文向量是输入序列的压缩表示。在传统的编码器-解码器模型中,这是一个单一的向量,但在更先进的模型如基于注意力机制的模型中,它可以是一系列向量。
  • 该向量作为输入数据的摘要,解码器将使用它来生成输出。

3. 解码器(Decoder):

  • 解码器接收编码器生成的上下文向量(或多个向量),逐步生成输出序列。
  • 与编码器类似,解码器可以由RNNs、LSTMs、GRUs或Transformers组成。
  • 解码器在生成输出序列的每一个标记时,会参考上下文向量和已生成的标记。
  • 在机器翻译等任务中,解码器一次预测一个词,并将其输出反馈给自身,以预测下一个词。

注意力机制(Attention Mechanism)(可选但常用):

  • 在许多现代的编码器-解码器架构中,使用注意力机制使解码器在生成每个输出标记时可以关注输入序列的不同部分。
  • 通过注意力机制,解码器可以访问编码器生成的整个隐藏状态序列,并在每个解码步骤中对它们进行不同的加权。
相关推荐
Hcoco_me9 分钟前
大模型面试题34:Transformer的Encoder和Decoder区别与协作
人工智能·rnn·深度学习·lstm·transformer·word2vec
dhdjjsjs13 分钟前
Day56 PythonStudy
人工智能·深度学习·机器学习
CoovallyAIHub26 分钟前
2026计算机视觉如何将海量图像数据转化为商业价值与竞争优势?边缘计算?多模态AI?合成数据?
深度学习·算法·计算机视觉
技术狂人16826 分钟前
(三)模型微调技术 20 题!LoRA/Q-LoRA/PPO/DPO 落地细节,面试说清微调全流程(实战篇)
人工智能·深度学习·算法·nlp
龙腾AI白云38 分钟前
深度学习—卷积神经网络(4)
人工智能·深度学习
return19991 小时前
gpt进行修改润色 不要和原来的一样
gpt·深度学习
菩提祖师_1 小时前
基于增量微调的大语言模型领域更新方法
c++·深度学习·ci/cd·云原生
Hcoco_me1 小时前
大模型面试题28:推导transformer layer的计算复杂度
人工智能·深度学习·学习·自然语言处理·transformer·word2vec
kimi-2221 小时前
大模型推理model.generate()+tokenizer.decode() 、model(**input)
人工智能·深度学习
这张生成的图像能检测吗1 小时前
(论文速读)ActiveEventNet:基于活动事件的立体视觉
深度学习·计算机视觉·结构光·双目视觉·事件相机·轻量化结构