语言大模型基础概念一（先了解听说过的名词都是什么）

WePlayDirty2025-02-14 22:14

STF（Supervised Fine-Tuning）和RLHF（Reinforcement Learning from Human Feedback）是两种不同的模型训练方法，分别用于不同的阶段和目的。具体介绍参考SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别_sft和rlhf-CSDN博客

Lora（Low-Rank Adaptation）是一种新的模型微调技术。在预训练好的模型中引入并行的低秩矩阵，用于修正预训练模型的输出（有点像ResNet，增加新的参数用来生成预训练模型的残差）。具体介绍参考理解Lora微调只需一个公式-CSDN博客

参考

描述：仅包含解码器部分，没有编码器。

应用： 通常用于生成任务 ，如语言模型和对话系统。

代表模型： GPT（Generative Pre-trained Transformer）

其他： prefix Decoder (输入为之前所有的输出,）和 causal Decoder(输入为上一时刻的输出,）。

描述：仅包含编码器部分，没有解码器。

应用： 通常用于理解任务 ，如文本分类和情感分析。

代表模型： BERT（Bidirectional Encoder Representations from Transformers）

描述：同时包含编码器和解码器部分。

应用：通常用于序列到序列（seq2seq）任务 ，如机器翻译和文本摘要。

代表模型： Transformer、T5

语言大模型基础概念 一（先了解听说过的名词都是什么）