Encoder、Decoder和Encoder-Decoder

首先LLM有3种架构:Encoder-only、Decoder-only、encode-decode

整体情况

1、Encoder将可变长度的输入序列编码成一个固定长度的向量,比如在bert中应用的encoder,其实是输入和输出是等长的向量。通常情况下,encoder是用来提取特征的,因此更适合用于文本分类、情感分析等任务

2、Decoder将固定长度的向量解码成一个可变长度的输出序列,经常比如gpt中,就是用前面的n个tocken来预测下一个tocken,然后将真实的下一个tocken加入再预测下下个tocken,这里我们猜测能否将预测的tocken也加入,跟真实tocken一起预测呢?形成一种对抗。通常情况下,decoder更适合用于文本生成的工作。

3、Encoder-Decoder是传统的transformer结构,相比较decoder来说更加耗费内存,也更慢一些,它是用encoder先将可变长度编码成固定长度向量,再将固定长度向量解码成可变长度的过程。通常情况下,Encoder-Decoder更适合用于机器翻译这种需要输入特征,并且也要生成不定长序列的情况

参考: 大模型都是基于Transformer堆叠,采用Encoder或者Decoder堆叠,有什么区别?

相关推荐
kngines9 小时前
【PLW004】基于Python网络爬虫与推荐算法的新闻推荐平台v1.0(Python+Django+NLP+Vue+MySQL前后端分离)
爬虫·python·nlp·推荐算法
AI完全体3 天前
【AI小项目5】使用 KerasNLP 对 Gemma 模型进行 LoRA 微调
人工智能·lora·微调·nlp·大语言模型·gemma·kerasnlp
Ven%4 天前
深度学习速通系列:除了One-Hot编码,还有哪些其他处理分类数据的方法?
人工智能·深度学习·机器学习·自然语言处理·nlp
diluosixu5 天前
NLP-新词挖掘
数据挖掘·nlp
Ven%7 天前
深度学习速通系列:F1和F2分数
人工智能·python·深度学习·自然语言处理·nlp
Lossya8 天前
【机器学习】隐马尔可夫模型的基本概念和应用领域以及在NLP中如何实现(含python代码)
人工智能·python·机器学习·自然语言处理·nlp·朴素贝叶斯·隐马尔可夫
陈敬雷-充电了么-CEO兼CTO9 天前
自然语言处理系列六十》分布式深度学习实战》主流深度学习开源平台
人工智能·深度学习·ai·自然语言处理·chatgpt·nlp·aigc
LeonYi10 天前
【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读
nlp·dl
python_知世10 天前
时下改变AI的6大NLP语言模型
人工智能·深度学习·自然语言处理·nlp·大语言模型·ai大模型·大模型应用