Encoder、Decoder和Encoder-Decoder

首先LLM有3种架构:Encoder-only、Decoder-only、encode-decode

整体情况

1、Encoder将可变长度的输入序列编码成一个固定长度的向量,比如在bert中应用的encoder,其实是输入和输出是等长的向量。通常情况下,encoder是用来提取特征的,因此更适合用于文本分类、情感分析等任务

2、Decoder将固定长度的向量解码成一个可变长度的输出序列,经常比如gpt中,就是用前面的n个tocken来预测下一个tocken,然后将真实的下一个tocken加入再预测下下个tocken,这里我们猜测能否将预测的tocken也加入,跟真实tocken一起预测呢?形成一种对抗。通常情况下,decoder更适合用于文本生成的工作。

3、Encoder-Decoder是传统的transformer结构,相比较decoder来说更加耗费内存,也更慢一些,它是用encoder先将可变长度编码成固定长度向量,再将固定长度向量解码成可变长度的过程。通常情况下,Encoder-Decoder更适合用于机器翻译这种需要输入特征,并且也要生成不定长序列的情况

参考: 大模型都是基于Transformer堆叠,采用Encoder或者Decoder堆叠,有什么区别?

相关推荐
Rabbit_QL2 天前
【BPE实战】从零实现 BPE 分词器:训练、编码与解码
python·算法·nlp
这张生成的图像能检测吗2 天前
(论文速读)XLNet:语言理解的广义自回归预训练
人工智能·计算机视觉·nlp·注意力机制
肾透侧视攻城狮2 天前
《NLP核心能力构建:从传统统计到上下文感知的文本表示演进之路》
人工智能·nlp·fasttext·word2vec/glove·elmo/n-gram/词袋·doc2vec/lda·句向量与文档向量
换个名字就很好3 天前
cursor安装和编程
nlp
智海观潮4 天前
Vanna-ai - 让自然语言对话SQL数据库成为可能,支持多种数据库,大模型和向量存储
大数据·nlp·aigc
TvxzFtDBIxok9 天前
基于MATLAB/Simulink的4机10节点系统暂态稳定性仿真
nlp
查无此人byebye12 天前
【超详细解读(GPU)】基于DiT的MNIST扩散模型(DDPM)完整实现
python·深度学习·nlp·transformer·多分类
乌萨奇53712 天前
【2025考研复试】深度学习扩展知识:从ViT到多模态,以及简历项目挖掘策略(第11章复盘)
人工智能·深度学习·考研·计算机视觉·nlp·多模态
查无此人byebye12 天前
基于DiT+DDPM的MNIST数字生成:模型推理实战教程
人工智能·python·深度学习·nlp·transformer
Yaozh、13 天前
【word2vec模型】两种模型结构CBOW和Skip-gram的具体过程
人工智能·深度学习·神经网络·自然语言处理·nlp·word2vec