语言大模型基础概念 一(先了解听说过的名词都是什么)

SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别

STF(Supervised Fine-Tuning)和RLHF(Reinforcement Learning from Human Feedback)是两种不同的模型训练方法,分别用于不同的阶段和目的。具体介绍参考SFT(监督微调)和RLHF(基于人类反馈的强化学习)的区别_sft和rlhf-CSDN博客

LoRA(Low-Rank Adaptation)

Lora(Low-Rank Adaptation)是一种新的模型微调技术。在预训练好的模型中引入并行的低秩矩阵,用于修正预训练模型的输出(有点像ResNet,增加新的参数用来生成预训练模型的残差)。具体介绍参考理解Lora微调只需一个公式-CSDN博客

语言大模型主体架构

参考

Decoder-Only、Encoder-Only、Encoder-Decoder 区别_decoder only-CSDN博客语言大模型知识点简介_prefix decoder-CSDN博客

  1. Decoder-Only 架构

描述: 仅包含解码器部分,没有编码器

应用: 通常用于生成任务 ,如语言模型和对话系统。

代表模型: GPT(Generative Pre-trained Transformer)

其他: prefix Decoder (输入为之前所有的输出,)和 causal Decoder(输入为上一时刻的输出,)。

  1. Encoder-Only 架构

描述: 仅包含编码器部分,没有解码器。

应用: 通常用于理解任务 ,如文本分类和情感分析。

代表模型: BERT(Bidirectional Encoder Representations from Transformers)

  1. Encoder-Decoder 架构

描述: 同时包含编码器和解码器部分。

应用: 通常用于序列到序列(seq2seq)任务 ,如机器翻译和文本摘要。

代表模型: Transformer、T5

相关推荐
小真zzz1 天前
2026年GEO监测工具深度横评:谁在AI时代守护品牌心智?
人工智能·百度·重构
ZFSS1 天前
Localization Translate API 集成与使用指南
java·服务器·数据库·人工智能·mysql·ai编程
天行健,君子而铎1 天前
合规对标·低误报漏报·稳定运行——知源-AI数据分类分级系统金融行业解决方案
人工智能·金融·分类
视觉&物联智能1 天前
【杂谈】-游戏生成数据:人工智能训练中极易被低估的核心资源
人工智能·游戏·ai·chatgpt·openai·agi·deepseek
扫地的小何尚1 天前
NVIDIA Vera Rubin 平台如何解决 Agentic AI 的 Scale-up 难题
大数据·人工智能·机器学习
莞凰1 天前
昇腾CANN的“灵脉根基“:Runtime仓库探秘
android·人工智能·transformer
5201-1 天前
ops-conv:卷积算子从 CPU 到昇腾 NPU 的优化之路
人工智能·深度学习
HIT_Weston1 天前
92、【Agent】【OpenCode】edit 工具提示词
人工智能·agent·opencode
Shan12051 天前
机器学习评价指标之基础指标与综合指标
人工智能·机器学习
硅谷秋水1 天前
智体Harness工程:综述(下)
人工智能·深度学习·机器学习·语言模型