总结自视频(吴恩达大模型入门课):9_13_generative-ai-project-lifecycle_哔哩哔哩_bilibili
生成周期如下图,包含四部分:任务范围(Scope),选择大模型(Select),调整大模型,部署应用程序。

1. 任务范围(Scope)
同时多个任务。

还是限定在某个具体任务即可。
以此估计任务的难度和成本。
2. 选择大模型(Select)
选择现成的开源大模型,还是自己从零(pretrain)开始训练一个。

从0开始训练时,首先要根据不同的任务,选择不同的网络结构。
2.1 Encoder-only LLM
仅使用Transformer的编码器部分(如BERT、RoBERTa等),通过双向自注意力机制捕捉文本的全局上下文信息。其预训练阶段的核心任务是掩码语言模型(MLM),即随机掩盖输入文本中的部分token,让模型根据上下文预测被掩盖的token。
例如,输入句子"The cat [MASK] on the mat",模型需预测被掩盖的"sat"

Encoder-only模型无需生成序列 ,而是专注于理解输入内容,如分类或特征提取。
Encoder-only模型的训练分为预训练 和微调两个阶段:
预训练
- 
掩码语言模型(MLM) :随机掩盖15%的输入token(如替换为[MASK]、随机词或保留原词),模型预测被掩盖的原始词,以学习双向上下文表征 
- 
辅助任务:如BERT的下一句预测(NSP),判断两个句子是否连续,增强句子间关系建模 
- 
动态掩码:改进版本(如RoBERTa)采用动态掩码策略,每次训练时随机更换掩盖位置,提升鲁棒性 
微调
- 
预训练模型通过少量标注数据适配下游任务,如添加分类层进行情感分析或问答。 
- 
例如,使用[CLS]标记的聚合表示驱动分类任务,或提取实体识别任务的序列标注。 
应用场景
Encoder-only模型适用于无需生成文本、侧重理解与分析的任务,典型场景包括:
- 
文本分类 - 
情感分析(判断句子情感倾向)。 
- 
主题分类(如新闻归类为体育、科技等)。 
 
- 
- 
信息抽取 - 
命名实体识别(NER):识别文本中的人名、地点等实体。 
- 
关系抽取:分析实体间的关联(如"苹果"公司与"乔布斯"的关系)。 
 
- 
2.2 Decoder-only LLM
仅使用Transformer的解码器部分(如GPT系列),也叫自回归模型(autoregressive model),因为它们在生成文本时是逐词进行的,每个词依赖于之前的词。
通过单向自注意力机制(仅关注当前词左侧的上下文)逐词生成文本。这和Encoder-only的双向上下文不同。需要明确两者的区别,比如BERT是Encoder-only,而GPT是Decoder-only的例子。
也叫因果语言模型(causal language model),因果指的是每个词只能关注前面的词,避免未来信息的泄露,这也是自回归的核心。
- 
与Encoder-only模型的区别 - 
Decoder-only模型生成文本,擅长开放式任务(如对话、续写); 
- 
Encoder-only模型理解文本,擅长分类、信息抽取等分析任务。 
 
- 
训练方式,完整的句子,训练时挨个从句子开头开始输入到模型中,预测下一个token,遵循因果语言模型,逐词生成,每个词依赖于之前的词。

应用场景
- 
Decoder-only模型适用于需要生成连贯文本或动态推理的任务,典型场景包括: 
- 
文本生成 - 
创意写作(诗歌、故事生成) 
- 
内容续写(如邮件自动补全、代码补全工具GitHub Copilot) 
 
- 
- 
对话系统 - 
开放域聊天机器人(如ChatGPT) 
- 
任务导向对话(订票、客服问答) 
 
- 
2.3 Encoder-Decoder LLM
使用完整的Transformer结构
- 
T5(Text-to-Text Transfer Transformer) 
- 
BART(Bidirectional and Auto-Regressive Transformer) 
Encoder-Decoder模型的训练结合了双向编码 和自回归生成,其中T5将所有任务(分类、翻译、生成)统一为"文本到文本"格式。
2.3.1 训练方式
去噪自编码(Denoising Autoencoding)
- 
对输入文本进行破坏(如随机掩码、删除或打乱词序),编码器学习恢复原始文本,解码器生成完整输出。 
- 
例如,BART通过多种噪声策略(文本填充、句子置换等)提升鲁棒性。 
跨度预测(Span Prediction)
- 如T5将输入文本中的连续片段替换为特殊标记,解码器需预测被掩盖的原始内容。

2.3.2 应用领域
翻译,文本总结,问答;

2.3.3 典型案例与模型演进
- 
Transformer(2017) - 首个Encoder-Decoder架构的模型,为机器翻译设计,奠定后续模型基础。
 
- 
BART(2019) - 结合双向编码(类似BERT)和自回归解码(类似GPT),在文本生成与理解任务中表现均衡。
 
- 
T5(2020) - 提出"Text-to-Text"统一框架,将所有任务视为文本生成,简化训练流程。
 
- 
PEGASUS(2020) - 专为摘要任务优化,通过选择重要句子作为预训练目标(GSG任务)。
 
- 
FLAN-T5(2022) - 基于T5的指令微调版本,支持多任务泛化与零样本生成。
 
2.3.4 与Encoder-only/Decoder-only模型的对比
| 特性 | Encoder-only (BERT) | Decoder-only (GPT) | Encoder-Decoder (T5) | 
|---|---|---|---|
| 核心能力 | 文本理解 | 文本生成 | 理解+生成 | 
| 注意力机制 | 双向 | 单向(因果掩码) | 编码器双向,解码器单向 | 
| 典型任务 | 分类、NER | 对话、续写 | 翻译、摘要 | 
| 输入输出关系 | 单文本输入,固定输出 | 单文本输入,生成输出 | 双文本(输入→输出) | 
| 预训练任务 | MLM、NSP | 因果语言建模 | 去噪自编码、跨度预测 | 
训练方式区别如下图。

3. 调整大模型
调整模型方法有:prompt engineering, Fine-tuning, Align with human feedback
3.1 提示词工程(prompt engineering)
- 
定义:通过设计或优化输入提示(prompt),引导模型生成更符合预期的输出。 
- 
特点: - 
无需修改模型内部参数,只需调整输入。 
- 
适用于预训练模型(如GPT系列),直接通过提示控制输出。 
 
- 
- 
应用场景: - 
让模型生成特定格式的文本(如代码、表格)。 
- 
引导模型完成特定任务(如问答、翻译)。 
 
- 
- 
优点: - 
简单高效,适合快速实验。 
- 
不需要额外训练数据或计算资源。 
 
- 
- 
缺点: - 
对复杂任务效果有限。 
- 
提示设计需要经验和技巧。 
 
- 
3.2 微调**(Fine-tuning)**
- 
定义 :在预训练模型的基础上,使用特定任务的数据进一步训练,调整模型参数以适应新任务。 
- 
特点: - 
需要任务相关的数据集。 
- 
调整模型参数,使其更专注于特定任务。 
 
- 
- 
应用场景: - 
将通用语言模型(如GPT、BERT)适配到特定领域(如医疗、法律)。 
- 
针对特定任务(如情感分析、文本分类)优化模型。 
 
- 
- 
优点: - 
效果通常优于提示工程。 
- 
可以显著提升模型在特定任务上的性能。 
 
- 
- 
缺点: - 
需要大量标注数据和计算资源。 
- 
训练过程复杂,可能出现过拟合。 
 
- 
3.3 基于人类反馈的对齐(Align with Human Feedback)
- 
定义 :通过人类反馈调整模型,使其输出更符合人类价值观或任务需求。 
- 
特点: - 
使用人类标注的偏好数据(如选择更好的输出)。 
- 
通常结合强化学习(如RLHF,基于人类反馈的强化学习)。 
 
- 
- 
应用场景: - 
让模型生成更安全、更符合伦理的输出。 
- 
优化对话系统,使其更自然、有用。 
 
- 
- 
优点: - 
显著提升模型的实用性和安全性。 
- 
使模型更符合人类期望。 
 
- 
- 
缺点: - 
需要大量人类标注数据,成本高。 
- 
实现复杂,涉及强化学习等技术。 
 
- 
4. 部署应用程序
优化大模型,使其充分利用计算机资源。